一文搞懂transformer中编码和解码器机制

发布时间：2026/5/22 20:03:45

目录1.目的2.transformer简易框架3.编码器工作流1.Input Embeddings2.Positional Encoding3.Multi-Headed Self-Attention Mechanism3.1.矩阵乘法 (MatMul) - 查询和键的点积3.2降低注意力得分的幅度3.3.将 Softmax 应用于调整后的分数3.4.将 Softmax 结果与值向量相结合4.Normalization and Residual Connections5.Feed-Forward Neural Network6.Output of the Encoder7.整个编码器详细的流程图4.解码器工作流1.Output Embeddings2.Positional Encoding3.Self-Attention Mechanism3.1 Masked Self-Attention Mechanism3.2.Encoder-Decoder Multi-Head Attention or Cross Attention4.Normalization and Residual Connections5.Feed-Forward Neural Network6.Linear Classifier and Softmax for Generating Output Probabilities7.Output of the Decoder8.整个解码器详细流程图1.目的Transformer自2017年《Attention Is All You Need》论文提出完全基于注意力机制取代了RNN/LSTM因串行计算慢、长距离依赖差导致的低效问题。它极大提升了并行效率与建模能力推动了BERT、GPT等大模型发展至2026年已演进为具备推理与自主能力的智能体基础架构。通过了解transformer更好的去拥抱ai拥抱未来2.transformer简易框架Transformer 模型最初是为序列转换或神经机器翻译而设计的它擅长将输入序列转换为输出序列。它是第一个完全依赖自注意力机制来计算输入和输出表示的转换模型无需使用序列对齐的循环神经网络RNN或卷积。Transformer 架构的核心特征在于它保留了编码器-解码器模型。transformser两个部分组成码器接收我们的输入并输出该输入的矩阵表示。例如英文句子hang zhou解码器接收编码后的表示并迭代地生成输出。在我们的例子中翻译后的句子杭州编码器和解码器实际上都是多层堆栈两者层数相同。所有编码器的结构相同输入信号依次进入每一层并传递给下一层。所有解码器的结构也相同输入信号来自上一层编码器和前一层解码器。原架构由 6 个编码器和 6 个解码器组成但我们可以根据需要复制任意数量的层。所以我们假设各有 N 层。3.编码器工作流1.Input Embeddings编码器首先将输入词元单词或子词转换为固定维度的数值向量每个向量的维度为 512。所有编码器均接收一个由此类向量组成的列表最底层编码器以词嵌入向量作为输入而其余编码器则接收其前一编码器的输出。2.Positional Encoding通过组合不同频率与相位的正弦、余弦函数生成可适应任意长度句子的位置向量。每个维度由特定频率的正弦波及其相位偏移表示向量元素值域为 [-1, 1]从而唯一表征序列中各位置信息。3.Multi-Headed Self-Attention Mechanism多头注意力机制采用自注意力Self-Attention结构使模型能够在序列内部建立词元间的关联关系。例如模型可学习将“hang”与“zhou”在语义上关联起来。在该机制中编码器在处理每个词元时均能通过注意力分数对输入序列的不同位置进行加权聚焦。其计算基于以下三个组件查询Query表示当前关注词元的向量键Key输入序列中每个词元对应的向量值Value与键关联的向量用于构建注意力输出。当查询与某一键的匹配度即注意力分数较高时对应的值在输出中获得更高权重。不同于仅执行单次注意力函数多头机制先将查询、键、值进行h次线性投影并在每个投影版本上并行计算注意力最终拼接得到h维输出。这种设计使模型能够从不同表示子空间中联合捕获上下文信息显著提升对序列内复杂依赖的建模能力。3.1.矩阵乘法 (MatMul) - 查询和键的点积查询、键和值向量经线性投影后通过查询与键的点积矩阵乘法计算得到注意力分数矩阵。该矩阵衡量序列中每个词元对其他词元的关注权重分数越高表示对应词元在编码当前词元时获得更高关注。此计算本质上实现了查询与键的匹配映射。3.2降低注意力得分的幅度将得分除以查询向量和键向量维度的平方根从而降低得分。这一步骤是为了确保梯度更加稳定因为数值相乘可能会导致过大的影响。3.3.将 Softmax 应用于调整后的分数随后对调整后的分数应用softmax函数以获得注意力权重。这会产生介于0到1之间的概率值。softmax函数会增强高分同时减弱低分从而增强模型有效判断哪些词应该获得更多关注的能力。3.4.将 Softmax 结果与值向量相结合注意力机制的下一步是将 softmax 函数得到的权重与值向量相乘从而得到输出向量。在此过程中仅保留softmax得分高的词。最后将该输出向量输入线性层进行进一步处理。4.Normalization and Residual ConnectionsTransformer 作为深度网络其信息传递路径复杂包含点积注意力、线性与非线性变换等多层操作易在反向传播中引发梯度消失或爆炸。为此标准做法是在每个子层如自注意力、前馈网络后引入残差连接将输入与子层输出相加缓解梯度衰减支持更深网络训练随后进行层归一化稳定隐藏层分布加速收敛。两者共同构成 Transformer 的基础稳定性组件。5.Feed-Forward Neural Network逐点前馈网络FFN是 Transformer 中位于残差连接与层归一化之后的关键处理阶段。其结构由两个线性变换与中间的 ReLU 激活函数构成独立作用于序列的每个位置实现对特征的进一步非线性映射。FFN 的输出会通过残差连接与自身输入相加再次进行层归一化完成当前子层的调整后将稳定的表征传递至下一层。这一设计在增强模型非线性表达能力的同时保持了训练的稳定性和信息流动的顺畅性。6.Output of the Encoder最终编码器层的输出是一组上下文感知的向量序列每个向量融合了输入序列中的全局依赖信息。该输出作为解码器的输入通过注意力机制引导解码过程聚焦于输入序列的相关部分。堆叠 N 个编码器层可逐级抽象特征各层从不同子空间学习注意力模式逐步构建层次化表征。这种结构既丰富了语义表达也提升了整体模型的建模能力。7.整个编码器详细的流程图4.解码器工作流1.Output Embeddings和编码器的阶段相似2.Positional Encoding和编码器的阶段相似3.Self-Attention Mechanism3.1 Masked Self-Attention Mechanism解码器中的掩蔽自注意力与编码器自注意力机制类似但核心区别在于引入了掩蔽机制禁止当前词元关注后续位置即序列中每个词元的表示仅依赖于其之前位置的输出。该机制通过在注意力分数矩阵中对未来位置的权重置为 −∞−∞ 实现从而在预测当前词元时确保自回归属性——例如计算“hang”的表示时无法“看到”序列中更后的词元如“zhou”。这种设计保证了解码过程的因果性符合自回归生成任务的要求。3.2.Encoder-Decoder Multi-Head Attention or Cross Attention解码器中的第二层多头注意力即交叉注意力实现了编码器与解码器之间的信息交互。其查询Query来自解码器第一层掩蔽自注意力的输出而键Key和值Value均来自编码器的输出。这一结构使解码器能够基于当前已生成的部分序列动态聚焦于输入序列中的相关位置从而实现源序列与目标序列的精确对齐。该层输出随后经逐点前馈网络进一步变换增强解码器的表征能力。整体设计保证了信息从编码器向解码器的有效传递是 Transformer 生成能力的关键支撑。4.Normalization and Residual Connections和编码器的阶段相似5.Feed-Forward Neural Network和编码器的阶段相似6.Linear Classifier and Softmax for Generating Output Probabilities解码器最终的输出通过一个线性层分类头映射到词汇表维度将高维特征转化为与词汇表大小一致的向量其每个元素对应一个词的逻辑得分。随后Softmax 函数将该向量转换为归一化的概率分布其中最大值所在位置的索引即为模型预测的下一词。这一过程本质上是将解码器的连续表示解码为离散词元完成从特征空间到词汇表的概率化选择是Transformer生成流程的最后一步7.Output of the Decoder解码器最终层的输出经线性变换与 Softmax 归一化转化为词汇表上的概率分布其中概率最高的词元作为当前时间步的预测结果。解码过程采用自回归方式每步生成的词元追加至输入序列驱动下一步预测直至输出终止符如为止。解码器可堆叠 (N) 层每层基于编码器输出与前一层的表征通过多头注意力机制从不同子空间学习注意力模式。这种分层设计使得模型能够组合多种注意力视角显著提升对序列依赖的建模能力与最终预测质量。8.整个解码器详细流程图整个流程红色标记出来是解码器和编码有差异的地方

Apache James邮件服务器：企业级邮件系统部署与管理的完整指南

Apache James邮件服务器：企业级邮件系统部署与管理的完整指南【免费下载链接】james-project James Project是一个用于电子邮件服务器的开源软件。适用于需要为其邮件基础设施提供强大和可靠的邮件传输代理的企业和组织。具有可扩展性、灵活性和易于使用的特点。 …

2026/5/22 20:03:44 阅读更多

突破Unity引擎限制：MelonLoader跨平台模组加载器全攻略

突破Unity引擎限制：MelonLoader跨平台模组加载器全攻略【免费下载链接】MelonLoader The Worlds First Universal Mod Loader for Unity Games compatible with both Il2Cpp and Mono 项目地址: https://gitcode.com/gh_mirrors/me/MelonLoader Unity游戏扩…

2026/5/21 22:06:42 阅读更多

3个关键点解析：如何突破悠悠有品登录验证的技术挑战

3个关键点解析：如何突破悠悠有品登录验证的技术挑战【免费下载链接】Steamauto 免费开源的网易BUFF、悠悠有品、Steam的全自动收发货解决方案项目地址: https://gitcode.com/GitHub_Trending/st/Steamauto 在Steamauto这个开源的Steam自动收发货解决方案中…

2026/5/22 17:34:53 阅读更多

别再走弯路！2026亲测靠谱的AI论文写作工具|安心版

2026 年学术写作工具已高度分化，千笔AI与ThouPen为全流程首选，豆包、DeepSeek 为专项强手；避坑关键：拒绝假文献、严控 AIGC 率、优先国内适配、免费试用先行。一、TOP3 全流程首选（亲测不踩雷） 1. 千笔AI&…

2026/5/23 0:09:44 阅读更多

【Typescript】14-高级实战-设计类型安全的-api

高级实战：设计类型安全的 API 如果学完前面的知识，你还只是停留在“我会写几个类型、看得懂一些泛型”，那 TypeScript 其实只学了一半。真正拉开差距的地方，是你能不能把类型系统转化成设计能力，尤其是在 API 设计上。…

2026/5/23 0:07:22 阅读更多

【Typescript】13-tsconfig与工程化实践

tsconfig 与工程化实践很多人学 TypeScript 时，会把注意力几乎全部放在语法上：泛型会不会写、infer 看不看得懂、工具类型会不会用。可真正在工程里决定 TypeScript 上限的，往往不是这些，而是 tsconfig.json。因为它决定了编译器…

2026/5/23 0:07:22 阅读更多

【Typescript】11-类抽象类与面向对象建模

类、抽象类与面向对象建模 TypeScript 不是一门纯粹的面向对象语言，但它对类系统的支持足够完整，足以覆盖很多工程场景。问题在于，很多人学到 class 之后，会误以为这就是组织 TypeScript 代码的默认方式。现实恰恰相反&#xff1…

2026/5/23 0:07:22 阅读更多

Windows右键菜单终极优化指南：如何用ContextMenuManager让右键菜单秒开如飞

Windows右键菜单终极优化指南：如何用ContextMenuManager让右键菜单秒开如飞【免费下载链接】ContextMenuManager 🖱️ 纯粹的Windows右键菜单管理程序项目地址: https://gitcode.com/gh_mirrors/co/ContextMenuManager 你是否曾经对着电脑屏幕等…

2026/5/23 0:06:21 阅读更多

Taotoken的API Key访问控制与审计日志功能在安全合规中的价值

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度 Taotoken的API Key访问控制与审计日志功能在安全合规中的价值 1. 引言：安全合规是现代AI应用的基础要求在企业环境中…

2026/5/23 0:06:01 阅读更多

红黑树完全指南：从五条性质到完整插入删除实现

引言在前面的树系列中，我们学习了二叉搜索树（BST）和 AVL 树。AVL 树通过严格的平衡条件（|BF| ≤ 1）保证 O(log n) 的性能，但代价是删除操作可能触发 O(log n) 次旋转。红黑树（Red-Black Tree&am…

2026/5/23 0:01:37 阅读更多

黎曼猜想：哲学 × 数学思维范式全链条

黎曼猜想：哲学数学思维范式全链条华夏之光永存｜七大数学猜想思维范式全链条第二篇开篇黎曼猜想被公认为数学史上最伟大的未解难题。希尔伯特曾说：“如果我沉睡百年后醒来，第一个问题就是：黎曼猜想证明了吗&…

2026/5/23 0:02:38 阅读更多

在Nodejs后端服务中集成稳定可靠的大模型能力

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度在Nodejs后端服务中集成稳定可靠的大模型能力应用场景类，针对需要构建智能对话或内容生成功能的后端工程师&#xff0…

2026/5/23 0:03:18 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/22 17:05:13 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/22 16:54:23 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/21 2:29:29 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/22 14:41:35 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/22 11:03:47 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/22 3:58:33 阅读更多

相关文章

Apache James邮件服务器：企业级邮件系统部署与管理的完整指南

突破Unity引擎限制：MelonLoader跨平台模组加载器全攻略

3个关键点解析：如何突破悠悠有品登录验证的技术挑战

别再走弯路！2026亲测靠谱的AI论文写作工具|安心版

【Typescript】14-高级实战-设计类型安全的-api

【Typescript】13-tsconfig与工程化实践

【Typescript】11-类抽象类与面向对象建模

Windows右键菜单终极优化指南：如何用ContextMenuManager让右键菜单秒开如飞

Taotoken的API Key访问控制与审计日志功能在安全合规中的价值

红黑树完全指南：从五条性质到完整插入删除实现

黎曼猜想：哲学 × 数学 思维范式全链条

在Nodejs后端服务中集成稳定可靠的大模型能力

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

py每日spider案例之某website之xin东方选课搜索接口(难度一般 扣取代码即可)

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

黎曼猜想：哲学 × 数学思维范式全链条

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)