一条视频讲懂 Transformer:从 Token 到 BERT 个人主页杨利杰YJlio❄️个人专栏《Windows 疑难杂症与工单复盘案例库》 《Sysinternals实战教程》《WINDOWS教程》 《Windows PowerShell 实战》 《IOS插件分析测试》《超简单用Python让Excel飞起来》让复杂的事情更简单让重复的工作自动化一条视频讲懂 Transformer从 Token 到 BERT1、为什么说 Transformer 是大模型的关键地基2、自然语言进入模型前先要变成 Token3、词向量让语义关系可以被计算4、Q、K、V注意力机制里的查询、键和值5、QK 打分模型如何判断谁更值得关注6、softmax把打分变成注意力分配比例7、Attention 公式本质是相关性加权汇总8、多头注意力模型从多个角度理解上下文9、Add Norm从残差连接开始理解稳定训练10、Encoder把输入文本编码成一组上下文向量11、Decoder根据已有输出预测下一个 Token12、Decoder 层结构带掩码注意力与交叉注意力13、BERT编码器路线的经典理解模型总结一条视频看懂 Transformer 的真正价值参考关键词这篇文章来自一段Transformer原理讲解视频。视频用动画方式把Attention Is All You Need、Token、词向量、Q/K/V、注意力打分、softmax、Attention公式、多头注意力、残差连接、Encoder、Decoder和BERT串成了一条完整学习线。本文不是视频逐字稿而是把视频内容整理成适合 CSDN 发布的学习笔记。重点不是死背公式而是理解Transformer的完整逻辑自然语言如何变成TokenToken如何变成向量向量如何通过Q/K/V计算注意力注意力如何进入编码器和解码器最后又如何支撑BERT、GPT这类模型。上面这张图是全文开场图。画面中出现了Attention is all you need、Encoder、Decoder等关键词适合用于引出整篇文章的主题。它只放在文章开头不放到后面的Add Norm、词向量或BERT章节。1、为什么说 Transformer 是大模型的关键地基要理解今天的大语言模型、自然语言处理、文本生成、智能问答和代码生成就绕不开那篇经典论文Attention Is All You Need。视频一开始就用这篇论文引出Transformer是非常合理的讲法。这张图左侧是Attention Is All You Need论文右侧是Transformer架构示意表达的是Transformer对后续大模型发展的基础意义。它只对应“为什么Transformer重要”这一节。Transformer的核心思想是让模型通过注意力机制判断一句话里哪些词更重要哪些词之间关系更强。它不是让模型真正像人一样思考而是用数学方式把“应该重点看哪里”这件事计算出来。学习问题Transformer 的处理方式一句话里哪些词更重要通过Attention计算注意力权重同一个词在不同上下文中含义不同怎么办结合上下文重新计算词的表示模型如何理解输入通过Encoder编码成上下文向量模型如何生成输出通过Decoder根据已有内容预测下一个Token一句话理解Transformer的关键价值是把语言理解问题转成向量表示 注意力权重 编码解码的计算问题。2、自然语言进入模型前先要变成 Token人看到一句话可以直接理解它的意思。但模型不能直接理解文字本身它只能处理数字。因此自然语言进入模型前需要先被切分成Token再进入后续向量化和注意力计算流程。视频先用“拉不拉”和“拉货”的例子说明上下文的重要性。同一个“拉”字放在不同词语和句子里语义可能完全不同。这张图对应上下文语义变化。画面里拉不拉指向拉货说明模型不能只看单个字而要结合上下文判断当前词真正表达什么含义。接下来文本需要进入模型可处理的形式。最简单的直觉就是把不同词语映射成不同编号。这张图对应Token编号。画面中货拉拉、拉不拉、拉布拉多分别被标成0、1、2。它讲的是文本进入模型前的编号和离散化过程。概念通俗解释在模型中的作用Token文本被切分后的基本处理单元让模型可以逐个处理输入内容编号把不同Token映射成不同数字让文本进入可计算流程上下文前后词会影响当前词含义为后面的注意力机制做铺垫简单编号只能说明这些词不同但不能说明它们语义上有什么关系。比如拉布拉多和金毛都和动物有关货拉拉和物流平台更接近。要表达这种语义关系就需要词向量。3、词向量让语义关系可以被计算视频用二维坐标轴讲词向量。一个方向表示“是否跟动物相关”另一个方向表示“是否跟交通相关”。这样一来语义相近的词就会在图上靠得更近。这张图对应词向量和语义空间。图中金毛、牧羊犬、拉布拉多更靠近动物方向货拉拉、网约车、物流平台更靠近交通和物流方向。真实模型中的向量不会只有二维而是高维空间。每个维度可能表达某种抽象语义特征。模型通过这些数字计算词之间的距离、相关性和上下文影响。图中直观表达真实模型中的含义横轴表示是否跟交通相关向量中的某些维度可能表达运输、移动、物流等语义纵轴表示是否跟动物相关向量中的某些维度可能表达动物、宠物、犬类等语义距离越近表示语义越接近模型可以用向量计算判断词语相似度一句话总结词向量不是简单编号而是把词放进一个可以表达语义距离的数字空间。4、Q、K、V注意力机制里的查询、键和值理解了Token和词向量之后就可以进入Q/K/V。视频中把Q/K/V类比成查询、键、值和词块数据库这个比喻非常适合入门。这张图对应Q/K/V变换。左侧画面是Query、Key、Value和词块数据库右侧画面出现了WQ、WK、WV说明输入的语义和位置向量会通过不同矩阵变换生成Q、K、V。名称中文理解作用Query查询当前词想要寻找什么信息Key键每个词提供用于匹配的标签Value值真正被汇总和传递的信息内容可以这样记Q负责问K负责匹配V负责交出内容。模型先用Q和K判断相关性再根据相关性去加权汇总V。关键点Q/K/V不是凭空来的而是由输入向量经过不同权重矩阵变换得到的。5、QK 打分模型如何判断谁更值得关注有了Q和K之后下一步就是计算相关性。视频用拉不拉更关注货拉拉的例子说明注意力不是平均分配的而是根据语义和上下文关系动态变化。这张图对应QK相关性打分。画面中Q2与K1、K2、K3进行相关性计算得到8、11、4这样的分数。这里表达的是当前词对其他词的关注程度。计算对象含义Q · K计算查询向量和键向量的相关性分数越高说明当前词越应该关注对应词分数越低说明当前词和对应词关系较弱这一步得到的是原始注意力分数还不能直接当作比例。后面还需要经过缩放和softmax才能变成真正的注意力分配权重。一句话理解QK打分就是模型在问“我现在处理这个词时句子里谁和我最相关”6、softmax把打分变成注意力分配比例前面得到的8、11、4这种分数只能表示相关性大小还不是最终比例。softmax的作用就是把分数转成一组概率权重让它们加起来等于1。这张图对应softmax权重归一化。图中出现了Q2·K1/√d、Q2·K2/√d、Q2·K3/√d并通过softmax得到0.15 0.84 0.01 1的注意力分配比例。步骤作用QK打分得到词与词之间的相关性分数除以√d对分数进行缩放避免数值过大softmax把分数转成概率形式的注意力权重权重求和为1表示注意力被分配到不同词上一句话理解softmax把“谁更相关”转换成“分别关注多少”。7、Attention 公式本质是相关性加权汇总视频里出现的注意力公式是很多人第一次学习Transformer时最容易害怕的地方。Attention(Q, K, V) softmax(Q · K / √dₖ) · V这张图对应Attention完整公式。画面中完整展示了Attention(Q,K,V)公式同时把Query、Key、Value三行向量对应出来。它适合用来解释注意力机制的完整计算过程。公式部分作用通俗理解Q · K计算相关性判断当前词和其他词有多相关√dₖ缩放避免数值过大导致训练不稳定softmax归一化把分数变成注意力比例V提供内容按照注意力比例加权汇总信息不要被公式吓到它的本质就是先算相关性再算分配比例最后按比例把信息汇总起来。8、多头注意力模型从多个角度理解上下文单个注意力头只能从一个角度看词与词之间的关系但语言关系很复杂。一个词可能同时涉及语义、语法、位置、指代和上下文主题所以Transformer使用了Multi-Head Attention。这张图对应多头注意力。图中H1、H2、H3表示不同注意力头旁边仍然保留了注意力公式说明每个头都在做注意力计算但可能关注不同关系。注意力头可能关注的关系H1语义相关性例如词义是否接近H2句法关系例如主语、谓语和宾语之间的关系H3上下文指代关系例如某个代词指向谁多头注意力不是简单重复计算而是让模型从多个角度同时理解一句话。一个头可能关注语义一个头可能关注位置一个头可能关注长距离依赖。一句话总结多头注意力让模型不是只用一种视角理解文本而是同时用多个视角观察上下文。9、Add Norm从残差连接开始理解稳定训练视频在多头注意力之后继续讲到了Add和Norm。这一部分经常被初学者忽略但它对Transformer的稳定训练非常重要。这张图对应Add和残差连接。画面中多头注意力输出后进入Add旁边标注了“残差网络”。这里标题写Add Norm是因为标准Transformer模块里残差连接通常和归一化一起理解但这张图本身重点展示的是Add残差连接。结构作用Add把原始输入和注意力输出相加形成残差连接Norm归一化数据分布让训练更稳定FFN前馈网络对每个位置的向量继续加工可以把Add Norm理解为稳定器。它让深层网络在堆叠很多层时仍然可以保留原始信息并减少训练过程中的数值不稳定。10、Encoder把输入文本编码成一组上下文向量Encoder是Transformer里负责理解输入的部分。它接收输入文本的向量表示通过多头注意力、残差连接、归一化和前馈网络把原始输入加工成带上下文信息的一组向量。这张图对应Encoder编码器结构。图中清楚显示了多个编码层每层都包含Attention(Q,K,V)、多头注意力、Add Norm和FFN最后输出“一组向量”。Encoder 组件作用多头注意力计算输入文本内部各个词之间的关系Add Norm保留原始信息并稳定网络训练FFN对每个位置的向量继续做非线性加工编码输出得到一组带上下文信息的向量简单理解Encoder的任务是读懂输入并把读懂后的内容变成后续模块可以使用的上下文向量。11、Decoder根据已有输出预测下一个 Token理解了Encoder以后再看Decoder会更清楚。Decoder更偏生成它会根据已经生成的内容继续预测下一个Token。这张图对应Decoder生成场景。画面中出现BOS、Can和问号表示模型已经有了起始符和部分输出接下来要继续预测下一个英文Token。生成阶段含义BOS表示生成序列的开始Can表示已经生成出的部分内容问号位置表示模型接下来要预测的下一个Token一句话理解Decoder的生成逻辑就是“看已经生成了什么再预测下一个最可能出现的内容”。12、Decoder 层结构带掩码注意力与交叉注意力解码器内部结构比编码器更复杂因为它既要看自己已经生成了什么也要参考编码器输出的信息。视频中把这部分画成了解码层结构。这张图对应Decoder层结构。图中出现了带掩码多头注意力、多头交叉注意力、Add Norm和FFN。其中带掩码注意力用于防止模型偷看未来内容交叉注意力用于参考编码器输出。Decoder 结构作用带掩码多头注意力让模型只能看已经生成的内容不能偷看未来答案多头交叉注意力让解码器参考编码器输出的信息Add Norm稳定信息传递FFN继续加工每个位置的向量如果用翻译任务理解编码器负责读懂原文解码器负责生成译文。解码器既要看自己已经生成的内容也要看编码器对原文的理解结果。13、BERT编码器路线的经典理解模型视频最后提到BERT。BERT更偏向使用Transformer Encoder路线它主要用于理解类任务比如文本分类、语义匹配、问答检索和信息抽取。这张图对应BERT。图中展示输入进入编码器然后输出结果底部标注Transformer经典架构字幕里也提到“文本分类”。它讲的是编码器理解路线不是解码生成路线。模型方向核心结构典型任务BERT偏Encoder文本分类、语义理解、问答匹配、信息抽取GPT偏Decoder文本生成、对话、续写、代码生成翻译模型Encoder-Decoder机器翻译、摘要生成、输入输出转换最终理解Encoder更偏读懂Decoder更偏生成BERT更偏理解路线GPT更偏生成路线。总结一条视频看懂 Transformer 的真正价值这条视频真正讲清楚的不是某一个公式而是Transformer的整体学习路线。自然语言先变成TokenToken再变成词向量词与词之间通过Q/K/V计算相关性相关性通过softmax变成注意力比例多个注意力头从不同角度理解上下文编码器负责理解输入解码器负责生成输出。学习阶段应该记住什么Token自然语言进入模型前要先切分成可处理单元Embedding词向量让语义关系可以被计算Q/K/VQ负责问K负责匹配V负责提供内容Attention先算相关性再按权重汇总信息多头注意力模型从多个角度理解上下文Encoder把输入编码成上下文向量Decoder根据已有内容继续生成下一个TokenBERT / GPT分别代表偏理解和偏生成的不同路线最适合初学者记住的一句话Transformer就是一套让模型学会“看上下文、分配注意力、理解输入、生成输出”的架构。学习建议第一次学Transformer不要直接死磕公式。建议先按Token → Embedding → Q/K/V → QK 打分 → softmax → Attention → Multi-Head Attention → Add Norm → Encoder → Decoder → BERT/GPT这条线理解后面再回头看数学推导会顺很多。参考关键词Transformer、Attention、Self-Attention、QKV、Query、Key、Value、softmax、Multi-Head Attention、Add Norm、Encoder、Decoder、BERT、GPT、Embedding、Token点击回到顶部