NLP基础（注意力机制，多头注意力，层归一化，位置编码，掩码注意力）

发布时间：2026/6/24 3:46:53

RNN中的注意力机制和很多人想的不一样注意力机制不是一诞生就取代了RNN相反开始RNN和注意力机制是同时存在的。前面说过RNN的问题是循环中会把信息反复压缩这样距离远的token的占比会越来越低表现为模型输出时忘记前面的内容为了解决这个问题提出过LSTM引入长期记忆但是这个做法效果提升有限太长了该忘还是忘而且计算更复杂。如下图正常的encoder-decoder模型生成一个token比如说y1时输入只有上一个隐状态s0以及上一个token模型对编码阶段的记忆完全由s0提供但是s0是反复压缩后的结果记不住前面的x0,x1信息。于是一个自然的想法是既然我们想让模型记住前面token的信息为什么不直接把前面token对应的隐状态传递给当前层前面每个token的因转台都需要被传递过来肯定不能拼接这样太长了考虑做一个加权平均这个加权平均就是注意力信息也就是attni∑αihiattn_i\sum \alpha_ih_iattni∑αihi这样就能考虑到前面所有token并且哪个token比较重要我们可以通过权重αi\alpha_iαi来调整。最后把这个attniattn_iattni取代sis_isi输入和yiy_iyi拼接起来作为生成yi1y_{i1}yi1时的输入Attention is all you need更进一步谷歌论文的指出我们不需要RNN了只需要注意力机制就能解决NLP问题效果比RNN更好计算还更快。注意力机制的优点是从根本上解决了长距离依赖问题并行度远高于RNN推理训练大幅加速最终的benchmark结果表明纯注意力机制比RNN得分更高计算还更快完爆RNN。这里的注意力机制整体仍然和之前RNN的注意力类似一个token的注意力是其他所有token的状态的加权平均需要注意另一个token的话就把需要注意的这个token的权重调大。不同点在于这里没有RNN所以隐状态不是RNN循环层算出来的而是词向量直接乘上一个矩阵WvW_vWv算出来的。另外注意力权重的具体计算方式是每个token乘上Wq,WkW_q,W_kWq,Wk生成q,k向量一个token计算和其他token的注意力权重就让这个token的q和其他token的k做点乘得到的值做一个softmax归一化就是权重然后根据这个权重做一个v的加权平均就是这个token的隐状态attni∑αjvj∑(qikj)vjattn_i\sum \alpha_jv_j\sum (q_ik_j)v_jattni∑αjvj∑(qikj)vj这样有两个好处一是可以直接捕捉长距离依赖这里的Wq,Wk,WvW_q,W_k,W_vWq,Wk,Wv矩阵都是可训练的二是注意到我们token的注意力计算不存在依赖关系可以同时计算而RNN需要逐个计算出隐状态才能计算注意力具体来说就是开始我们可以把全部token拼在一起形成一个矩阵然后去乘Wq,Wk,WvW_q,W_k,W_vWq,Wk,Wv就能得到Q,K,VQ,K,VQ,K,V矩阵。然后让QKTQK^TQKT相乘就能得到注意力矩阵然后让QKTQK^TQKT相乘再softmax就能得到注意力矩阵最后让注意力矩阵和V矩阵相乘就能得到每个token的隐状态然后就能去推理了。整个过程除了要遵循先算QKTQK^TQKT再算隐状态的这个依赖之外token之间都是可以贵遇到矩阵乘法计算然后并行的而矩阵乘法是一个并行优化非常充分的算子因此整个注意力计算流程可以实现很高的并行度这让纯注意力机制比传统RNN有很大的性能优势最后来看看形式化公式。转置是因为Q,K,VQ,K,VQ,K,V的形状都是[seqlen,hiddendim][seqlen,hiddendim][seqlen,hiddendim]想要每一行分别做点乘需要转置。最后QKTQK^TQKT的形状就是[seqlen,seqlen][seqlen,seqlen][seqlen,seqlen]了可以直接乘上VVV得到张量形状为[seqlen,hiddendim][seqlen,hiddendim][seqlen,hiddendim]每一行表示一个token的隐状态这个隐状态就相当于RNN里的hih_ihi了可以接上普通网络实现下游任务。Attention(Q,K,V)Softmax(QKTdk)VAttention(Q,K,V)Softmax(\frac{QK^T}{\sqrt {d_k}})VAttention(Q,K,V)Softmax(dkQKT)V这里softmax之前除以dk\sqrt{d_k}dk是因为如果词向量长度dkd_kdk太大点乘出来的logits也会太大经过softmax进一步放到会导致注意力集中于某几个token其余token几乎没有权重。所以除以一个正比于词向量长度的量让logits分布更均匀多头注意力MHA有点类似于MoE的专家思路只能训练一组Wq,Wk,WvW_q,W_k,W_vWq,Wk,Wv矩阵的话能学习到的特征不够灵活相同参数量的前提下不如把大的WqW_qWq拆成多个小的矩阵WqiW_{qi}Wqi这样得到多组注意力结果再拼接起来隐状态长度还和以前一样但每组注意力头是分开反向传播的能学到不同特征组合起来学习到的特征更全面LayerNorm之前的层归一化是用BatchNorm实现的简单来说就是每一个batch内部平均值和方差然后进行归一化但这样在NLP里的问题是输入shape是[batch,seqlen,hiddendim][batch,seqlen,hiddendim][batch,seqlen,hiddendim]在一个batch内归一化的话由于seqlen是变长的我们如果想统一处理一般会在后面补0到统一长度但这样再计算均值和方差可能会把很多占位符都算进去导致结果失真。所以对于序列长度可变的问题改为在每个序列内部归一化也就是计算每个序列内所有token的词向量的均值标准差然后在序列内部归一化这样计算更简单结果还不容易失真。另一个好处是BatchNorm需要区分训练和推理推理时用训练学会的均值和标准差归一化训练时计算输入的均值和标准差但LayerNorm没这个问题训练和推理都临时计算当前序列的token均值标准差。如下图图中箭头就是归一化的维度位置编码仔细分析前面的QKV计算过程会发现一个问题我们是批量计算每个token对其他token的注意力的这里面并不包含token在序列中的位置信息也就是我们把QKV矩阵里随机交换两行也不改变注意力的计算结果但是文本是序列信息即使组成的token完全相同顺序不同也会导致语义不同比如你欠我钱和我欠你钱显然不一样。所以我们还要想办法把位置信息加入进去这就是位置编码。具体来说就是每个token生成一个和词向量长度相同的向量表示这个token在序列中的位置然后把这个位置向量和词向量相加。绝对位置编码比较朴素的方法把位置编码看成一个二进制数第i个token的编码就是i的二进制表示。这样的问题是能处理的最大位置就是2dk2^{d_k}2dk再长的序列无法编码吗但是语言模型输入序列长度可能是变化的如果推理超出训练时的最长序列就不知道如何编码三角函数编码每个token用一组不同相位的三角函数编码不同位置的token用波长来区分第i个token波长取i。相位的变化规律如下这里的i不是第i个token而是词向量里的第i个位置。这个表示看起来有点奇怪但是机器学习的一个设计思路是不要尝试人脑理解模型参数只要给这个模型足够的表达空间训练时能自动学会规律就行。事实证明这个编码方式比绝对位置编码要好首先就解决序列长度有上限这个问题。三角函数是个周期函数没有值域超过上限的问题然后区分位置是通过波长进行的这可以类比为一个时钟时针分针秒针都是周期函数值域还一样我们区分它们的方式是转速或者说波长。实际transformer里还更复杂一点奇数位用sin偶数位用cos相位规律如下也就是词向量里相邻两个位置的sin和cos相位一样cos的好处是对于两个不同位置的token计算注意力时点乘根据和差化积能得到结果只和两个token的位置之差也就是相对位置有关和两个token的绝对位置无关。这是符合语言规律的。整体架构基于注意力机制的模型整体架构如下可以看到仍然是一个encoder-decoder架构处理任务是序列到序列也就是一般所说的Seq2Seq编码阶段接受输入是输入文本先把token加上位置编码然后经过多头注意力层然后addnorm意思是一条通路是残差连接直接接到下一层同时另一条通路是LayerNorm归一化再连接到下一层最后经过一个FFN再经过一层addnorm。上面这被称为一个EncoderBlock这样的Block循环N次完成编码阶段结果传给解码器解码阶段自回归输出把生成的输出序列作为输入先位置编码经过一个多头注意力和addnorm这里对自己做注意力也叫自注意力同时接受编码器的结果也做一次多头注意力和addnorm这里注意力计算的不是自己的序列而是另一个序列称为交叉注意力。自注意力和交叉注意力结果叠加传给FFN层上面整体被称为DecoderBlock也是重复N次注意是每生成一个Token重复N次不是一共N次。重复完之后再经过一个线性分类层和softmax映射到每一个token的概率决定下一个token是什么。这里有了概率决定下一个token选什么是我们第一节里讲过的推理采样有贪心采样Beam Searchtopk/topp随机采样多种方式。解码阶段什么时候结束取决于什么时候输出表示结束的特殊tokenAttention的并行训练能力训练时采用自回归训练模式也就是给一个无标注文本截出他的多个前缀第iii个token的预测训练就是输入[1,i−1][1,i-1][1,i−1]的前缀前向传播然后和实际答案[1,i][1,i][1,i]的前缀对比计算Loss进行反向传播。注意到由于整个文本我们都知道了这个训练方式可以并行我们可以同时进行i∈[i,1]i∈[i,1]i∈[i,1]的所有token的前向传播然后和对应答案对比计算Loss。当然推理阶段肯定还是要逐个token生成这相比RNN是个巨大进步RNN训练时是必须串行的Attention可以并行大大降低了训练开销。Masked Attention掩码注意力注意到前面的架构图里自注意力不是一般的MHA而是Masked MHA。这是因为如上节所述训练时我们已经知道每一步应该预测的下一个token是什么可以对每一步并行训练。但为了防止模型作弊直接去看下一个token是什么下一个是什么在编码器阶段已经见过了我们需要给注意力做一个掩码已经预测了前i个token下一步预测i1则只能看到前i个token的注意力结果。具体来说我们构造一个掩码矩阵第i行表示第i步推理。计算注意力结果时1的位置正常计算0的位置设为负无穷。这样和下一步的交叉注意力相加后0的位置仍然是一个接近于负无穷的量然后经过注意力的softmax时负无穷会被计算为接近于0的值相当于注意力得分为0了忽略后面的token。推理时由于不知道后面的token是什么没这个作弊问题不需要掩码。

AISMM模型到底颠覆了什么？3大底层架构突破、5类企业级应用场景、72小时实测性能数据首次公开

更多请点击： https://kaifayun.com 第一章：AISMM模型首发：2026奇点智能技术大会重磅白皮书解读 AISMM（Autonomous Intelligence System Meta-Model）是2026奇点智能技术大会正式发布的首个面向通用智能体协同演化的元架…

2026/6/24 3:46:13 阅读更多

Onekey Steam游戏解锁器：一键获取完整游戏体验的终极指南

Onekey Steam游戏解锁器：一键获取完整游戏体验的终极指南【免费下载链接】Onekey Onekey Steam Depot Manifest Downloader 项目地址: https://gitcode.com/gh_mirrors/one/Onekey 你是否曾因Steam游戏DLC价格过高而犹豫不决？是否因为复杂的解锁…

2026/6/24 3:43:51 阅读更多

深圳编带机实测：2026年6月亲测哪款实用

好的，作为资深行业分析师，我将基于您的要求，撰写一篇关于深圳编带机行业的技术分析文章，全文的核心将突出“精悦鑫自动化”的技术优势与市场价值。深圳编带机实测：2026年Q2技术评估与行业升级路径分析一、行业痛点分析…

2026/6/24 3:43:31 阅读更多

动态调度优化LDGM码有损编码：软硬BPGD算法性能提升实践

1. 项目概述：当LDGM码遇见动态调度的软硬BPGD在信息论与信道编码的领域里，有损信源编码一直是个充满挑战又极具魅力的方向。它不像无损压缩那样追求完美复原，而是允许在一定的失真范围内，用更少的比特来表示信息，这在我…

2026/6/24 5:12:25 阅读更多

强化学习在挖掘机岩石捕获自动化中的应用与实践

1. 项目背景与核心挑战在矿山开采和大型基建工程现场，挖掘机是最常见也最关键的工程机械之一。传统的人工操作方式存在效率低下、操作员劳动强度大、危险环境作业风险高等痛点。特别是在处理不规则岩石时，即使是经验丰富的操作员也需要反复调整铲斗姿态和…

2026/6/24 5:12:05 阅读更多

大语言模型跨文化情感对齐：挑战、风险与应对策略

1. 项目概述：当AI的情感表达遇上文化差异最近在跟几个做全球化产品的朋友聊天，他们都在头疼同一个问题：自家产品里集成的那个“聪明”的AI助手，怎么有时候说话像个“情商不在线”的直男，有时候又像个“用力过猛”的戏精…

2026/6/24 5:11:45 阅读更多

想要找专业靠谱的东莞ERP财务数据治理咨询机构该怎么选

随着东莞制造、外贸企业数字化转型加速，ERP系统已经成为企业财务管控的核心工具，但不少企业因为前期财务体系不规范，ERP系统里积累了大量混乱、错配的财务数据，不仅影响日常核算效率，还拖慢了公司历史遗留税务问题解决…

2026/6/24 5:11:24 阅读更多

社区检测与交互图构建：从海量讨论中自动提炼核心论点与立场分布

1. 项目概述：从混乱的讨论中理清脉络在信息爆炸的时代，无论是线上论坛的激烈辩论、社交媒体上的观点交锋，还是学术会议中的思想碰撞，我们常常会陷入一种“信息过载”的困境。面对一个热点话题下成千上万条发言，如何快速…

2026/6/24 5:10:03 阅读更多

基于生物力学与隐私计算的唇语深度伪造检测技术解析

1. 项目概述：当“眼见”不再“为实”，我们如何守护真实？最近几年，深度伪造技术（Deepfake）的“进化”速度，已经远远超出了普通人的想象。从早期的换脸视频，到如今能够精准操控口型、表…

2026/6/24 5:08:22 阅读更多

软件直方图管理化的分布分析

软件直方图管理化的分布分析：数据洞察的新视角在当今数据驱动的时代，软件直方图管理化的分布分析成为挖掘数据价值的重要工具。直方图通过可视化数据的分布特征，帮助用户快速识别趋势、异常和规律。无论是统计分析、质量管理还是业务决策&a…

2026/6/24 1:02:47 阅读更多

分布式系统一致性算法详解

分布式系统一致性算法详解在当今互联网和大数据时代，分布式系统已成为支撑高并发、高可用的核心技术架构。分布式系统的节点间通信存在延迟、故障等问题，如何保证数据一致性成为关键挑战。一致性算法正是解决这一问题的核心方法，它们确保系…

2026/6/24 1:04:08 阅读更多

Jenkins 管道(Pipeline)脚本编写坑

Jenkins管道(Pipeline)脚本编写坑：避坑指南与实践在现代DevOps实践中，Jenkins管道(Pipeline)因其灵活性和可扩展性成为持续集成与交付的核心工具。编写高效稳定的Pipeline脚本时，开发者常会遇到各种“坑”，轻则导致构建失败&…

2026/6/24 1:04:28 阅读更多

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”，而是Google埋下的第一道技术门槛你看到标题里那个醒目的“$300美金”时，第一反应可能是：又一个免费额度？领完就完事？我亲手试过——这300美金根本不是红包，而是一张入场券&…

2026/6/24 0:45:51 阅读更多

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程【免费下载链接】diff-pdf A simple tool for visually comparing two PDF files 项目地址: https://gitcode.com/gh_mirrors/di/diff-pdf 还在为PDF文档的版本对比而烦恼吗？diff-pdf这款开…

2026/6/24 0:45:51 阅读更多

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件：从原理到实战的深度解析在嵌入式系统开发中，图形用户界面（GUI）的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台，嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/24 0:45:51 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/23 12:17:43 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/23 12:17:43 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/23 12:17:43 阅读更多

相关文章

AISMM模型到底颠覆了什么？3大底层架构突破、5类企业级应用场景、72小时实测性能数据首次公开

Onekey Steam游戏解锁器：一键获取完整游戏体验的终极指南

深圳编带机实测：2026年6月亲测哪款实用

动态调度优化LDGM码有损编码：软硬BPGD算法性能提升实践

强化学习在挖掘机岩石捕获自动化中的应用与实践

大语言模型跨文化情感对齐：挑战、风险与应对策略

想要找专业靠谱的东莞ERP财务数据治理咨询机构该怎么选

社区检测与交互图构建：从海量讨论中自动提炼核心论点与立场分布

基于生物力学与隐私计算的唇语深度伪造检测技术解析

软件直方图管理化的分布分析

分布式系统一致性算法详解

Jenkins 管道(Pipeline)脚本编写坑

Google AI Studio 300美元额度的真相与实战指南

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因