一条视频讲懂 Transformer：从 Token 到 BERT

发布时间：2026/6/22 17:48:04

个人主页杨利杰YJlio❄️个人专栏《Windows 疑难杂症与工单复盘案例库》《Sysinternals实战教程》《WINDOWS教程》《Windows PowerShell 实战》《IOS插件分析测试》《超简单用Python让Excel飞起来》让复杂的事情更简单让重复的工作自动化一条视频讲懂 Transformer从 Token 到 BERT1、为什么说 Transformer 是大模型的关键地基2、自然语言进入模型前先要变成 Token3、词向量让语义关系可以被计算4、Q、K、V注意力机制里的查询、键和值5、QK 打分模型如何判断谁更值得关注6、softmax把打分变成注意力分配比例7、Attention 公式本质是相关性加权汇总8、多头注意力模型从多个角度理解上下文9、Add Norm从残差连接开始理解稳定训练10、Encoder把输入文本编码成一组上下文向量11、Decoder根据已有输出预测下一个 Token12、Decoder 层结构带掩码注意力与交叉注意力13、BERT编码器路线的经典理解模型总结一条视频看懂 Transformer 的真正价值参考关键词这篇文章来自一段Transformer原理讲解视频。视频用动画方式把Attention Is All You Need、Token、词向量、Q/K/V、注意力打分、softmax、Attention公式、多头注意力、残差连接、Encoder、Decoder和BERT串成了一条完整学习线。本文不是视频逐字稿而是把视频内容整理成适合 CSDN 发布的学习笔记。重点不是死背公式而是理解Transformer的完整逻辑自然语言如何变成TokenToken如何变成向量向量如何通过Q/K/V计算注意力注意力如何进入编码器和解码器最后又如何支撑BERT、GPT这类模型。上面这张图是全文开场图。画面中出现了Attention is all you need、Encoder、Decoder等关键词适合用于引出整篇文章的主题。它只放在文章开头不放到后面的Add Norm、词向量或BERT章节。1、为什么说 Transformer 是大模型的关键地基要理解今天的大语言模型、自然语言处理、文本生成、智能问答和代码生成就绕不开那篇经典论文Attention Is All You Need。视频一开始就用这篇论文引出Transformer是非常合理的讲法。这张图左侧是Attention Is All You Need论文右侧是Transformer架构示意表达的是Transformer对后续大模型发展的基础意义。它只对应“为什么Transformer重要”这一节。Transformer的核心思想是让模型通过注意力机制判断一句话里哪些词更重要哪些词之间关系更强。它不是让模型真正像人一样思考而是用数学方式把“应该重点看哪里”这件事计算出来。学习问题Transformer 的处理方式一句话里哪些词更重要通过Attention计算注意力权重同一个词在不同上下文中含义不同怎么办结合上下文重新计算词的表示模型如何理解输入通过Encoder编码成上下文向量模型如何生成输出通过Decoder根据已有内容预测下一个Token一句话理解Transformer的关键价值是把语言理解问题转成向量表示注意力权重编码解码的计算问题。2、自然语言进入模型前先要变成 Token人看到一句话可以直接理解它的意思。但模型不能直接理解文字本身它只能处理数字。因此自然语言进入模型前需要先被切分成Token再进入后续向量化和注意力计算流程。视频先用“拉不拉”和“拉货”的例子说明上下文的重要性。同一个“拉”字放在不同词语和句子里语义可能完全不同。这张图对应上下文语义变化。画面里拉不拉指向拉货说明模型不能只看单个字而要结合上下文判断当前词真正表达什么含义。接下来文本需要进入模型可处理的形式。最简单的直觉就是把不同词语映射成不同编号。这张图对应Token编号。画面中货拉拉、拉不拉、拉布拉多分别被标成0、1、2。它讲的是文本进入模型前的编号和离散化过程。概念通俗解释在模型中的作用Token文本被切分后的基本处理单元让模型可以逐个处理输入内容编号把不同Token映射成不同数字让文本进入可计算流程上下文前后词会影响当前词含义为后面的注意力机制做铺垫简单编号只能说明这些词不同但不能说明它们语义上有什么关系。比如拉布拉多和金毛都和动物有关货拉拉和物流平台更接近。要表达这种语义关系就需要词向量。3、词向量让语义关系可以被计算视频用二维坐标轴讲词向量。一个方向表示“是否跟动物相关”另一个方向表示“是否跟交通相关”。这样一来语义相近的词就会在图上靠得更近。这张图对应词向量和语义空间。图中金毛、牧羊犬、拉布拉多更靠近动物方向货拉拉、网约车、物流平台更靠近交通和物流方向。真实模型中的向量不会只有二维而是高维空间。每个维度可能表达某种抽象语义特征。模型通过这些数字计算词之间的距离、相关性和上下文影响。图中直观表达真实模型中的含义横轴表示是否跟交通相关向量中的某些维度可能表达运输、移动、物流等语义纵轴表示是否跟动物相关向量中的某些维度可能表达动物、宠物、犬类等语义距离越近表示语义越接近模型可以用向量计算判断词语相似度一句话总结词向量不是简单编号而是把词放进一个可以表达语义距离的数字空间。4、Q、K、V注意力机制里的查询、键和值理解了Token和词向量之后就可以进入Q/K/V。视频中把Q/K/V类比成查询、键、值和词块数据库这个比喻非常适合入门。这张图对应Q/K/V变换。左侧画面是Query、Key、Value和词块数据库右侧画面出现了WQ、WK、WV说明输入的语义和位置向量会通过不同矩阵变换生成Q、K、V。名称中文理解作用Query查询当前词想要寻找什么信息Key键每个词提供用于匹配的标签Value值真正被汇总和传递的信息内容可以这样记Q负责问K负责匹配V负责交出内容。模型先用Q和K判断相关性再根据相关性去加权汇总V。关键点Q/K/V不是凭空来的而是由输入向量经过不同权重矩阵变换得到的。5、QK 打分模型如何判断谁更值得关注有了Q和K之后下一步就是计算相关性。视频用拉不拉更关注货拉拉的例子说明注意力不是平均分配的而是根据语义和上下文关系动态变化。这张图对应QK相关性打分。画面中Q2与K1、K2、K3进行相关性计算得到8、11、4这样的分数。这里表达的是当前词对其他词的关注程度。计算对象含义Q · K计算查询向量和键向量的相关性分数越高说明当前词越应该关注对应词分数越低说明当前词和对应词关系较弱这一步得到的是原始注意力分数还不能直接当作比例。后面还需要经过缩放和softmax才能变成真正的注意力分配权重。一句话理解QK打分就是模型在问“我现在处理这个词时句子里谁和我最相关”6、softmax把打分变成注意力分配比例前面得到的8、11、4这种分数只能表示相关性大小还不是最终比例。softmax的作用就是把分数转成一组概率权重让它们加起来等于1。这张图对应softmax权重归一化。图中出现了Q2·K1/√d、Q2·K2/√d、Q2·K3/√d并通过softmax得到0.15 0.84 0.01 1的注意力分配比例。步骤作用QK打分得到词与词之间的相关性分数除以√d对分数进行缩放避免数值过大softmax把分数转成概率形式的注意力权重权重求和为1表示注意力被分配到不同词上一句话理解softmax把“谁更相关”转换成“分别关注多少”。7、Attention 公式本质是相关性加权汇总视频里出现的注意力公式是很多人第一次学习Transformer时最容易害怕的地方。Attention(Q, K, V) softmax(Q · K / √dₖ) · V这张图对应Attention完整公式。画面中完整展示了Attention(Q,K,V)公式同时把Query、Key、Value三行向量对应出来。它适合用来解释注意力机制的完整计算过程。公式部分作用通俗理解Q · K计算相关性判断当前词和其他词有多相关√dₖ缩放避免数值过大导致训练不稳定softmax归一化把分数变成注意力比例V提供内容按照注意力比例加权汇总信息不要被公式吓到它的本质就是先算相关性再算分配比例最后按比例把信息汇总起来。8、多头注意力模型从多个角度理解上下文单个注意力头只能从一个角度看词与词之间的关系但语言关系很复杂。一个词可能同时涉及语义、语法、位置、指代和上下文主题所以Transformer使用了Multi-Head Attention。这张图对应多头注意力。图中H1、H2、H3表示不同注意力头旁边仍然保留了注意力公式说明每个头都在做注意力计算但可能关注不同关系。注意力头可能关注的关系H1语义相关性例如词义是否接近H2句法关系例如主语、谓语和宾语之间的关系H3上下文指代关系例如某个代词指向谁多头注意力不是简单重复计算而是让模型从多个角度同时理解一句话。一个头可能关注语义一个头可能关注位置一个头可能关注长距离依赖。一句话总结多头注意力让模型不是只用一种视角理解文本而是同时用多个视角观察上下文。9、Add Norm从残差连接开始理解稳定训练视频在多头注意力之后继续讲到了Add和Norm。这一部分经常被初学者忽略但它对Transformer的稳定训练非常重要。这张图对应Add和残差连接。画面中多头注意力输出后进入Add旁边标注了“残差网络”。这里标题写Add Norm是因为标准Transformer模块里残差连接通常和归一化一起理解但这张图本身重点展示的是Add残差连接。结构作用Add把原始输入和注意力输出相加形成残差连接Norm归一化数据分布让训练更稳定FFN前馈网络对每个位置的向量继续加工可以把Add Norm理解为稳定器。它让深层网络在堆叠很多层时仍然可以保留原始信息并减少训练过程中的数值不稳定。10、Encoder把输入文本编码成一组上下文向量Encoder是Transformer里负责理解输入的部分。它接收输入文本的向量表示通过多头注意力、残差连接、归一化和前馈网络把原始输入加工成带上下文信息的一组向量。这张图对应Encoder编码器结构。图中清楚显示了多个编码层每层都包含Attention(Q,K,V)、多头注意力、Add Norm和FFN最后输出“一组向量”。Encoder 组件作用多头注意力计算输入文本内部各个词之间的关系Add Norm保留原始信息并稳定网络训练FFN对每个位置的向量继续做非线性加工编码输出得到一组带上下文信息的向量简单理解Encoder的任务是读懂输入并把读懂后的内容变成后续模块可以使用的上下文向量。11、Decoder根据已有输出预测下一个 Token理解了Encoder以后再看Decoder会更清楚。Decoder更偏生成它会根据已经生成的内容继续预测下一个Token。这张图对应Decoder生成场景。画面中出现BOS、Can和问号表示模型已经有了起始符和部分输出接下来要继续预测下一个英文Token。生成阶段含义BOS表示生成序列的开始Can表示已经生成出的部分内容问号位置表示模型接下来要预测的下一个Token一句话理解Decoder的生成逻辑就是“看已经生成了什么再预测下一个最可能出现的内容”。12、Decoder 层结构带掩码注意力与交叉注意力解码器内部结构比编码器更复杂因为它既要看自己已经生成了什么也要参考编码器输出的信息。视频中把这部分画成了解码层结构。这张图对应Decoder层结构。图中出现了带掩码多头注意力、多头交叉注意力、Add Norm和FFN。其中带掩码注意力用于防止模型偷看未来内容交叉注意力用于参考编码器输出。Decoder 结构作用带掩码多头注意力让模型只能看已经生成的内容不能偷看未来答案多头交叉注意力让解码器参考编码器输出的信息Add Norm稳定信息传递FFN继续加工每个位置的向量如果用翻译任务理解编码器负责读懂原文解码器负责生成译文。解码器既要看自己已经生成的内容也要看编码器对原文的理解结果。13、BERT编码器路线的经典理解模型视频最后提到BERT。BERT更偏向使用Transformer Encoder路线它主要用于理解类任务比如文本分类、语义匹配、问答检索和信息抽取。这张图对应BERT。图中展示输入进入编码器然后输出结果底部标注Transformer经典架构字幕里也提到“文本分类”。它讲的是编码器理解路线不是解码生成路线。模型方向核心结构典型任务BERT偏Encoder文本分类、语义理解、问答匹配、信息抽取GPT偏Decoder文本生成、对话、续写、代码生成翻译模型Encoder-Decoder机器翻译、摘要生成、输入输出转换最终理解Encoder更偏读懂Decoder更偏生成BERT更偏理解路线GPT更偏生成路线。总结一条视频看懂 Transformer 的真正价值这条视频真正讲清楚的不是某一个公式而是Transformer的整体学习路线。自然语言先变成TokenToken再变成词向量词与词之间通过Q/K/V计算相关性相关性通过softmax变成注意力比例多个注意力头从不同角度理解上下文编码器负责理解输入解码器负责生成输出。学习阶段应该记住什么Token自然语言进入模型前要先切分成可处理单元Embedding词向量让语义关系可以被计算Q/K/VQ负责问K负责匹配V负责提供内容Attention先算相关性再按权重汇总信息多头注意力模型从多个角度理解上下文Encoder把输入编码成上下文向量Decoder根据已有内容继续生成下一个TokenBERT / GPT分别代表偏理解和偏生成的不同路线最适合初学者记住的一句话Transformer就是一套让模型学会“看上下文、分配注意力、理解输入、生成输出”的架构。学习建议第一次学Transformer不要直接死磕公式。建议先按Token → Embedding → Q/K/V → QK 打分 → softmax → Attention → Multi-Head Attention → Add Norm → Encoder → Decoder → BERT/GPT这条线理解后面再回头看数学推导会顺很多。参考关键词Transformer、Attention、Self-Attention、QKV、Query、Key、Value、softmax、Multi-Head Attention、Add Norm、Encoder、Decoder、BERT、GPT、Embedding、Token点击回到顶部

OpenCode AI编程助手技术适配决策框架：从工具选择到开发范式重塑

OpenCode AI编程助手技术适配决策框架：从工具选择到开发范式重塑【免费下载链接】opencode The open source coding agent. 项目地址: https://gitcode.com/GitHub_Trending/openc/opencode 在AI技术深度渗透软件开发全流程的今天，技术决策者面临…

2026/6/22 17:47:40 阅读更多

LS2088A安全引擎CCB寄存器配置实战：从硬件加速原理到嵌入式驱动开发

1. 项目概述与安全引擎核心架构在嵌入式系统，尤其是网络处理器和通信基础设施领域，硬件安全引擎（Security Engine, SEC）是保障数据机密性、完整性和真实性的基石。它不同于运行在通用CPU上的软件加密库，而是通过专用硬…

2026/6/22 17:46:02 阅读更多

数据库建模实战：从范式理论到反范式工程的存储性能与一致性权衡

数据库建模实战：从范式理论到反范式工程的存储性能与一致性权衡一、范式洁癖的代价：过度规范化如何拖垮查询性能数据库建模课程教的第一条原则是"遵循第三范式（3NF）"。但在生产环境中，严格遵循 3NF 的数据…

2026/6/22 17:43:49 阅读更多

Chrome画中画扩展终极指南：免费实现多任务视频悬浮播放

Chrome画中画扩展终极指南：免费实现多任务视频悬浮播放【免费下载链接】picture-in-picture-chrome-extension 项目地址: https://gitcode.com/gh_mirrors/pi/picture-in-picture-chrome-extension 你是否曾在观看在线课程时，需要频繁切换窗口查…

2026/6/22 19:26:18 阅读更多

Aurora Store技术深度解析：无Google生态下的Android应用管理架构

Aurora Store技术深度解析：无Google生态下的Android应用管理架构【免费下载链接】AuroraStore 项目地址: https://gitcode.com/gh_mirrors/au/AuroraStore Aurora Store作为一款开源Android应用商店客户端，通过逆向工程Google Play API实现了无…

2026/6/22 19:24:30 阅读更多

CodeWarrior汇编器高级应用：消息控制与内存段管理实战

1. 项目概述：从“黑盒”到“白盒”的汇编器掌控之旅在嵌入式开发的底层世界里，汇编器常常被视为一个“黑盒”——我们输入源代码，它输出机器码和一堆或清晰或模糊的提示信息。对于许多开发者，尤其是刚接触特定工具链（…

2026/6/22 19:23:22 阅读更多

Qwen3-VL的MRoPE：重定义多模态时空表征的核心机制

1. 为什么这次升级不是“挤牙膏”，而是重新校准多模态理解的底层坐标系Qwen3-VL 和 Qwen2.5-VL 的对比，绝不能简单套用“参数微调”或“训练数据加量”的旧逻辑。我从去年底开始系统性地跑通 Qwen2.5-VL 的全链路微调流程——从图像编码器对齐、跨模态注…

2026/6/22 19:21:55 阅读更多

终极指南：如何在Android 9+设备上免Root使用LSPatch框架？

终极指南：如何在Android 9设备上免Root使用LSPatch框架？ 【免费下载链接】LSPatch LSPatch: A non-root Xposed framework extending from LSPosed 项目地址: https://gitcode.com/gh_mirrors/ls/LSPatch 想要体验Xposed模块的强大功能&#xff0…

2026/6/22 19:18:30 阅读更多

深度相机实战指南：如何用Intel RealSense SDK构建专业级三维视觉应用

深度相机实战指南：如何用Intel RealSense SDK构建专业级三维视觉应用【免费下载链接】librealsense RealSense SDK 项目地址: https://gitcode.com/GitHub_Trending/li/librealsense 在计算机视觉和机器人领域，深度相机技术正以前所未有的速度发…

2026/6/22 19:17:22 阅读更多

突破传统RAG局限：LangChain+通义千问融合动态路由与检索融合的工业级智能客服架构

基础RAG仅依赖稠密向量检索，存在经典的语义坍缩、关键词遗忘、局部最优算法缺陷：向量检索优先匹配整体语义，会丢失用户问句中的核心业务实体关键词；固定TopK召回策略无法适配长短文本，长问句召回片段不足、短问句冗余过…

2026/6/22 0:01:29 阅读更多

Web安全实战：任意文件上传漏洞原理、复现与防御

1. 项目概述：一次典型的Web应用安全漏洞复现之旅最近在安全研究圈子里，一个关于“某4国语言抖音点赞系统”存在任意文件上传漏洞的案例引起了我的注意。这听起来像是一个典型的、面向特定垂直领域的Web应用，可能用于自动化或批量管理社交媒体…

2026/6/22 0:03:11 阅读更多

从MSP430到Flexis QE128：8/32位MCU无缝迁移与低功耗设计实战

1. 项目概述：当8位MCU遇到性能瓶颈，我们如何优雅升级？在嵌入式开发领域，尤其是电池供电的便携式设备、工业传感器节点或智能家居终端中，我们常常面临一个经典的两难选择：是选择功耗极低但性能有限的8位微控…

2026/6/22 0:04:12 阅读更多

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”，而是Google埋下的第一道技术门槛你看到标题里那个醒目的“$300美金”时，第一反应可能是：又一个免费额度？领完就完事？我亲手试过——这300美金根本不是红包，而是一张入场券&…

2026/6/22 0:04:01 阅读更多

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程【免费下载链接】diff-pdf A simple tool for visually comparing two PDF files 项目地址: https://gitcode.com/gh_mirrors/di/diff-pdf 还在为PDF文档的版本对比而烦恼吗？diff-pdf这款开…

2026/6/22 0:03:57 阅读更多

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件：从原理到实战的深度解析在嵌入式系统开发中，图形用户界面（GUI）的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台，嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/22 0:04:01 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/22 11:54:12 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/22 11:54:11 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…