从零实现Transformer：第 3 部分 - 掩码多头注意力的掩码广播（Broadcasting of Masks in Masked Multi-Head Attention）

发布时间：2026/6/27 23:12:42

从零实现Transformer第 3 部分 - 掩码多头注意力的掩码广播Broadcasting of Masks in Masked Multi-Head Attentionflyfish以生成填充掩码前瞻掩码的组合掩码为例1. 生成 Padding Mask填充掩码屏蔽序列中的填充占位符pad_id0填充的0是无效字符模型不应该关注、学习这些无意义的占位符2. 生成 Look-ahead Mask前瞻掩码屏蔽当前位置之后的所有未来 token解码器是自回归生成一步步生成文本绝对不能提前看到未来的词3. 合并掩码用|运算把两个掩码合二为一只要是「填充位」或「未来位」统一屏蔽True用处输出形状[batch, 1, seq_len, seq_len]这个掩码直接传入解码器的多头自注意力层掩码为True→ 注意力分数置为负无穷模型完全忽略该位置掩码为False→ 正常计算注意力模型可以关注该位置importtorchdefcreate_tgt_mask(tgt_ids,pad_id):创建目标序列掩码padding mask look-ahead mask#1.2维padding掩码[batch,seq_len]padding_mask_2d(tgt_idspad_id)#2.升维适配注意力维度-[batch,1,1,seq_len]tgt_padding_maskpadding_mask_2d.unsqueeze(1).unsqueeze(1)#3.生成序列长度 tgt_seq_lentgt_ids.shape[1]#4.构造上三角前瞻掩码[seq_len,seq_len]#diagonal1主对角线上方为1遮挡未来位置look_ahead_masktorch.triu(torch.ones(tgt_seq_len,tgt_seq_len,devicetgt_ids.device),diagonal1).bool()#5.升维支持批量广播-[1,1,seq_len,seq_len]look_ahead_masklook_ahead_mask.unsqueeze(0).unsqueeze(0)#6.合并掩码任意一个为True就遮挡returntgt_padding_mask|look_ahead_mask # 测试if__name____main__:pad_id0#2个batch序列长度50为padding tgt_idstorch.tensor([[1,2,3,0,0],[4,5,0,0,0]])maskcreate_tgt_mask(tgt_ids,pad_id)print(最终掩码形状:,mask.shape)# torch.Size([2,1,5,5])print(掩码内容:\n,mask)输出最终掩码形状:torch.Size([2,1,5,5])掩码内容:tensor([[[[False,True,True,True,True],[False,False,True,True,True],[False,False,False,True,True],[False,False,False,True,True],[False,False,False,True,True]]],[[[False,True,True,True,True],[False,False,True,True,True],[False,False,True,True,True],[False,False,True,True,True],[False,False,True,True,True]]]])广播 PyTorch 自动把形状不同但兼容的张量复制拉伸成相同形状然后再运算两个张量形状returntgt_padding_mask|look_ahead_mask两个输入形状tgt_padding_mask[B, 1, 1, S]→ 举例[2, 1, 1, 4]look_ahead_mask[1, 1, S, S]→ 举例[1, 1, 4, 4]广播目标把两个张量都自动变成[2, 1, 4, 4]再做|运算广播规则维度为1的位置可以自动复制扩展成任意大小扩展后两个张量形状完全一致就能运算例子1最简单的2维广播模拟小张量自动拉伸importtorch# 形状 [1,4] → 1行4列atorch.tensor([[True,False,True,False]])# 形状 [4,4] → 4行4列btorch.ones(4,4).bool()# 广播运算a自动复制4行变成[4,4]再和b运算ca|bprint(a形状:,a.shape)print(b形状:,b.shape)print(广播后运算结果形状:,c.shape)# 输出 [4,4][1,4]自动扩成[4,4]例子23维广播过渡# [2,1,4]atorch.rand(2,1,4).bool()# [1,4,4]btorch.rand(1,4,4).bool()# 自动广播成 [2,4,4]ca|bprint(c.shape)# [2,4,4]例子3模拟代码的4维广播importtorch# 模拟两个掩码B,S2,4# 1. padding掩码 [2,1,1,4]tgt_pad_masktorch.rand(B,1,1,S).bool()# 2. 前瞻掩码 [1,1,4,4]look_ahead_masktorch.rand(1,1,S,S).bool()# 广播运算final_masktgt_pad_mask|look_ahead_mask# 打印形状print(padding掩码形状:,tgt_pad_mask.shape)# [2,1,1,4]print(前瞻掩码形状:,look_ahead_mask.shape)# [1,1,4,4]print(广播后最终形状:,final_mask.shape)# [2,1,4,4]代码里用到的输入参数# 2个句子每个句子最长5个词tgt_idstorch.tensor([[1,2,3,0,0],# 第1个样本有效词3个后2个是填充0[4,5,0,0,0]# 第2个样本有效词2个后3个是填充0])pad_id0# 0代表填充位批次大小B 2序列长度S 5标准掩码维度[batch, num_heads, seq_q, seq_k]最终维度是[2, 1, 5, 5][2, 1, 5, 5] [批次B, 头数H, 查询序列长Q, 键序列长K]2一次性处理2 个句子batch21代码里没做多头默认1 个注意力头5Query 向量数量目标序列长度 55Key 向量数量目标序列长度 5代码里的广播tgt_padding_mask形状[2, 1, 1, 5]look_ahead_mask形状[1, 1, 5, 5]PyTorch自动广播把两个张量都拉伸为[2, 1, 5, 5]再做|运算掩码内容最终掩码前瞻掩码或填充掩码True 遮挡不让看False 允许看1. 前瞻掩码固定不变所有样本共用torch.triu(..., diagonal1)生成固定上三角矩阵# 5x5 前瞻掩码对角线以上全是True遮挡未来词 [ [F, T, T, T, T], # 第1个词只能看自己不能看后面4个 [F, F, T, T, T], # 第2个词能看自己前1个不能看后面3个 [F, F, F, T, T], # 第3个词能看自己前2个不能看后面2个 [F, F, F, F, T], # 第4个词能看自己前3个不能看后面1个 [F, F, F, F, F] # 第5个词能看所有前面的词 ]2. 填充掩码每个样本不一样样本1[1,2,3,0,0]第4、5位是填充→ 掩码[F,F,F,T,T]样本2[4,5,0,0,0]第3、4、5位是填充→ 掩码[F,F,T,T,T]最终合并结果样本1 输出第一块 5x5[[False, True, True, True, True], [False, False, True, True, True], [False, False, False, True, True], [False, False, False, True, True], # 第4位是填充永久遮挡 [False, False, False, True, True]] # 第5位是填充永久遮挡前3行只受前瞻掩码影响后2行前瞻掩码填充掩码双重遮挡样本2 输出第二块 5x5[[False, True, True, True, True], [False, False, True, True, True], [False, False, True, True, True], # 第3位是填充永久遮挡 [False, False, True, True, True], # 第4位是填充永久遮挡 [False, False, True, True, True]] # 第5位是填充永久遮挡前2行只受前瞻掩码影响后3行前瞻掩码填充掩码双重遮挡简单的流程就是维度[2,1,5,5][2个句子, 1个注意力头, 每个句子5个Query, 每个句子5个Key]掩码内容上三角的True 遮挡未来词前瞻掩码后半列的True 遮挡填充0填充掩码两者合并就是看到的输出不用广播的写法importtorchdefcreate_tgt_mask_no_broadcast(tgt_ids,pad_id):创建目标序列掩码无广播版手动扩展维度B,Stgt_ids.shape # 直接获取批次B2序列长S5#1.2维padding掩码[batch,seq_len]→[2,5]padding_mask_2d(tgt_idspad_id)#2.升维 →[B,1,1,S]→[2,1,1,5]tgt_padding_maskpadding_mask_2d.unsqueeze(1).unsqueeze(1)#替代广播# 把第3维seq_q从1复制成 S → 形状变成[B,1,S,S][2,1,5,5]tgt_padding_masktgt_padding_mask.repeat(1,1,S,1)#3.构造上三角前瞻掩码[S,S]→[5,5]look_ahead_masktorch.triu(torch.ones(S,S,devicetgt_ids.device),diagonal1).bool()#4.升维 →[1,1,S,S]→[1,1,5,5]look_ahead_masklook_ahead_mask.unsqueeze(0).unsqueeze(0)#替代广播# 把第0维batch从1复制成 B → 形状变成[B,1,S,S][2,1,5,5]look_ahead_masklook_ahead_mask.repeat(B,1,1,1)#6.两个掩码形状完全一致直接运算无任何广播returntgt_padding_mask|look_ahead_mask # 测试if__name____main__:pad_id0tgt_idstorch.tensor([[1,2,3,0,0],[4,5,0,0,0]])# 运行无广播版本 maskcreate_tgt_mask_no_broadcast(tgt_ids,pad_id)print(最终掩码形状:,mask.shape)# 依旧是 torch.Size([2,1,5,5])print(掩码内容:\n,mask)输出最终掩码形状:torch.Size([2,1,5,5])掩码内容:tensor([[[[False,True,True,True,True],[False,False,True,True,True],[False,False,False,True,True],[False,False,False,True,True],[False,False,False,True,True]]],[[[False,True,True,True,True],[False,False,True,True,True],[False,False,True,True,True],[False,False,True,True,True],[False,False,True,True,True]]]])

基于Next.js与Tailwind CSS构建教育机构官网：从技术选型到部署实践

1. 项目概述与核心思路最近在帮一个朋友规划他的数学辅导机构线上展示平台，核心需求很明确：需要一个能清晰传达机构价值、建立家长信任感，并能便捷收集潜在学员信息的官方网站。这个项目“mathematic-academy-homepage”就是一个典型的落地案…

2026/6/24 6:20:26 阅读更多

【实测】Hermes Agent 核心功能：记忆系统 / 联网搜索 / 多模态

前两篇介绍了 Hermes 是什么、怎么安装配置。这篇来实测它的三大核心功能：记忆系统、联网搜索、多模态。一、记忆系统：它会记住你这是 Hermes 最大的亮点。传统 AI 助手（比如早期的 ChatGPT）每次对话都是新的，聊完就…

2026/6/27 15:53:33 阅读更多

AI编程工具的内卷：Copilot、Cursor、通义灵码，谁能笑到最后？

当“内卷”的风吹到AI编程工具2026年，AI编程工具已不再是新鲜事物，而是开发者工具箱中的标配。从最初的代码补全，到如今的全栈智能体，这个赛道正经历着一场前所未有的“内卷”。GitHub Copilot、Cursor、通义灵码三足鼎立&#xf…

2026/6/25 3:22:49 阅读更多

别只盯着短期省钱！统好AI为江油制造搭建可持续经营底座

当下西南制造、模切、装备加工企业开展数字化改造时，普遍存在认知偏差：多数企业只盯着人力、物料短期节省，将数字化工具视作单纯 "省钱工具"，忽略长期经营韧性的搭建。不少厂商仅单独上线 CRM、库存或图纸系统&#xff…

2026/6/27 23:11:26 阅读更多

OpenAI API 迁移到 Claude API 完整指南：代码改动、不兼容参数、迁移检查清单

环境说明 openai Python SDK ≥ 1.0 / openai npm ≥ 4.0API 服务：claudeapi.com（OpenAI 兼容）接口地址：https://gw.claudeapi.com/v1 核心：只需改 base_url、api_key、model 三个字段，无需更换 SDK。一、P…

2026/6/27 23:11:06 阅读更多

2026国内具身机器人头部企业观察：宇树、智元、越疆进入第一梯队

2026 年，国内具身机器人行业正在从“单点展示”进入“规模化落地”阶段。过去几年，外界看机器人企业，更多关注谁的人形机器人能跑、能跳、能上舞台，谁的四足机器人能完成高难度动作。但当具身智能真正进入产业化周期后&#xff0c…

2026/6/27 23:10:25 阅读更多

Hydrus Network：用标签管理上万文件的桌面工具

文章目录Hydrus Network：用标签管理上万文件的桌面工具1、这玩意儿是干嘛的2、核心功能3、怎么装4、适合谁用5、项目状态Hydrus Network：用标签管理上万文件的桌面工具 hydrus 在 GitHub 上已经拿到 3,094 Star 了。这是一个文件管理应用&#x…

2026/6/27 23:09:03 阅读更多

服务周到的牙科诊所如何挑选

挑选服务周到的牙科诊所时，可以从资质合规、服务项目、收费透明、环境消毒等多个维度综合考量。以下测评以宁海白炻口腔诊所有限公司为例，基于公开资料和诊所介绍整理，未进行独立体验测试，信息供参考。资质合规与便民定位宁海白炻…

2026/6/27 23:06:15 阅读更多

[智能体-525]：AI 超级个体（个人服务商）完整解读

一、核心定义AI 超级个体是单人 / 极小 2-3 人工作室，依托全套 AI 工具链替代传统团队（产品、设计、开发、文案、剪辑、运维），直接面向企业、商家、个人客户交付完整商业解决方案，不靠雇佣大量员工，靠 AI 放…

2026/6/27 23:05:54 阅读更多

千问AI眼镜：阿里AI战略急先锋，能否在激烈竞争中突围？

千问眼镜：销量第一背后的挑战不久前，不少第三方统计机构给千问背书，甚至给出全国销量第一的统计结果。这个第一的含金量有多高？暂且先打个问号。但这些榜单至少说明，千问眼镜延续了阿里AI战略整体偏激进的风格&#xf…

2026/6/27 0:01:13 阅读更多

Tomcat中X-Frame-Options配置实战：防御点击劫持的四种方法与最佳实践

1. 项目概述：为什么X-Frame-Options是Web安全的“防盗门”？最近在排查一个老项目的安全审计报告时，又被提到了“点击劫持”风险，矛头直指缺失的X-Frame-Options响应头。这已经不是第一次了，很多开发团队，尤…

2026/6/27 0:01:34 阅读更多

10分钟AI语音克隆与实时变声：Retrieval-based-Voice-Conversion-WebUI完整指南

10分钟AI语音克隆与实时变声：Retrieval-based-Voice-Conversion-WebUI完整指南【免费下载链接】Retrieval-based-Voice-Conversion-WebUI Easily train a good VC model with voice data < 10 mins! 项目地址: https://gitcode.com/GitHub_Trending/re/Retrie…

2026/6/27 0:04:02 阅读更多

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”，而是Google埋下的第一道技术门槛你看到标题里那个醒目的“$300美金”时，第一反应可能是：又一个免费额度？领完就完事？我亲手试过——这300美金根本不是红包，而是一张入场券&…

2026/6/27 1:16:50 阅读更多

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程【免费下载链接】diff-pdf A simple tool for visually comparing two PDF files 项目地址: https://gitcode.com/gh_mirrors/di/diff-pdf 还在为PDF文档的版本对比而烦恼吗？diff-pdf这款开…

2026/6/27 1:16:49 阅读更多

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件：从原理到实战的深度解析在嵌入式系统开发中，图形用户界面（GUI）的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台，嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/27 1:16:48 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/27 12:47:04 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/27 13:25:14 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/27 13:25:16 阅读更多

相关文章