对于transform架构的认识

发布时间：2026/6/26 3:16:40

本文参考一一文彻底搞懂 Transformer图解代码手撕本文参考二收藏关于Transformer的20个常见面试问题你知道多少一、在多头注意力当中每个头会接收多少向量是全部嘛每个头接收的是整个序列的全部向量而不是序列的一部分。在多头注意力机制中输入是一个序列长度为 L例如一句话有 L 个词或一张图像分成 L 个块。在多头注意力Multi-Head Attention机制中每个头接收的是全部输入向量而不是部分。具体来说输入是一个序列比如 L 个向量每个向量维度为 dmodel对应序列中的 L 个位置。每个注意力头会独立地接收整个序列的所有 L 个向量作为输入。不同头的区别在于它们使用各自独立的可学习权重矩阵将输入线性变换为各自的 Query、Key、Value然后分别计算注意力输出。最后将所有头的输出拼接起来再经过一次线性变换得到最终结果。所以每个头都会看到全部序列信息只是它们从不同特征子空间去提取关联模式。每个头处理的向量数量是 L 个序列长度而不是部分向量。二、在多头注意力机制中对每个头进行降维的主要原因是为了降低计算复杂度同时保持模型的表达能力。通过将输入特征分成多个低维子空间模型能够在每个子空间中独立学习特征从而提高学习效率。这里面的降维的意思是分成L个向量嘛具体解释输入通常是一个序列包含L 个向量每个向量的原始维度为 dmodel如 512。在多头注意力中假设有h 个头每个头会通过独立的线性变换将每个向量的维度从 dmodel 降维到 dkdmodel/h例如 512 / 8 64。这意味着每个头接收的仍然是全部 L 个向量但每个向量的特征维度变小了从 512 降到 64。计算注意力时每个头的复杂度从O(L2⋅dmodel) 降为 O(L2⋅dk)整体复杂度保持不变但通过多头并行捕捉不同子空间信息。三、降维会不会导致信息减少为什么说“信息会减少”从信息论角度看将一个dmodel 维的向量通过线性变换压缩到 dk 维dkdmodel这个过程是有损压缩。部分原始特征空间中的细微或冗余信息会被丢弃。如果只有一个头那么这种降维确实会导致不可逆的信息损失从而限制模型的表达能力。为什么“多头注意力整体上信息不减少”多头注意力正是为了解决“单头降维导致信息损失”这个问题而设计的。它的核心理念是不把鸡蛋放在一个篮子里。多视角并行每个头使用不同的、可学习的权重矩阵进行降维。这意味着每个头会关注原始输入中不同的特征子空间。例如在一个“头”中丢失的语法信息可能在另一个“头”中被完整保留并强化。信息的冗余与互补虽然每个头看到的信息是“片面”且“有损”的但多个头看到的信息是互补的。它们合在一起共同覆盖了原始高维空间中的大部分重要模式。拼接恢复最后将所有头的输出每个头输出 dk 维在特征维度上拼接起来得到 h×dkdmodel维的输出。这个拼接操作在特征层面上重新整合了来自不同子空间的信息。四、transform中什么是位置编码在 Transformer 模型中位置编码Positional Encoding是一个核心组件用来解决 “并行计算带来的序列顺序缺失” 问题。简单说Transformer 的自注意力机制Self-Attention会同时处理整个句子它本身不具备区分词语位置的能力。比如“我打你”和“你打我”在它看来是一样的因为词序信息丢失了。位置编码就是为了显式地把“位置信息”注入到模型中。RNN 有顺序循环神经网络RNN是一个词一个词地处理天然就带有位置信息。Transformer 无顺序Transformer 的核心是自注意力它会一次性看到所有词。如果不加位置信息“我爱你”和“你爱我”模型对“我”和“你”这两个词的注意力计算结果是完全一样的。五、transform中会把每个字还是词表示向量在 Transformer 模型中输入的单位既不是“每个字”也不是“每个词”而是每个 Token词元/标记。具体用字还是用词取决于你采用的分词方法Tokenization。你可以理解为Transformer 处理的是一个“Token 序列”每个 Token 对应一个向量。六、前面提到并行在 Transformer 的讨论中“并行计算”指的是模型可以同时计算句子中所有位置Token的输出而不需要像循环神经网络RNN那样按时间步一个一个地依次计算。Transformer并行同样处理 “我爱你”它通过自注意力机制模型一次性接收所有 Token“我”、“爱”、“你”的向量。计算每个 Token 与其他所有 Token 之间的注意力权重时这些计算是相互独立的可以同时算出来。最终所有位置的输出向量可以在同一批矩阵运算中并行得到不需要像 RNN 那样等待前面的结果。七、每个Encoder层的输入是前一层的输出经过多头注意力和前馈网络的处理后输出的上下文表示能够捕捉到输入序列的全局信息。每一层都是的输出都是全局信息吗结果都一样吗不并不是每一层的输出结果都一样但每一层输出的确实都是全局信息。这两点需要区分理解为什么说“每一层的输出都是全局信息”因为自注意力机制Self-Attention 在每一层都会让每个 Token 直接“看到”整个序列的所有 Token。例如即使在第 1 层编码器计算 “爱” 这个位置的输出时它已经同时融合了 “我”、“爱”、“你” 的信息加权聚合。所以从感受野角度来看每一层编码器的输出都是基于整个输入序列的全局上下文表示不存在“低层只能看局部”的情况不同于 CNN 的逐层扩大感受野。那不同层的结果为什么不一样虽然每一层都“全局”但它们提取和编码的信息层次不同底层靠近输入的层输出更偏向局部、语法、词性、短语结构等较细粒度的特征。例如底层可能强烈关注相邻词的搭配。中层开始捕捉句法角色、基本语义比如主谓宾关系。高层靠近输出的层输出更偏向整体语义、句子级表示、复杂关系如指代、逻辑隐含等。高层会对底层信息进行非线性抽象和重组。不同 Encoder 层的权重是不一样的。每一层都拥有自己独立的一套参数八、使用不同矩阵权重的关键性原因这是一个非常经典且深刻的问题。简单直接的答案是如果Q和K来自同一个矩阵即权重共享那么注意力机制就退化成了“当前词与自己过去所有词的静态、对称的相似度”这会严重限制模型的表达能力和灵活性。kx乘以WK qx乘以Wq 得来的

Wayback Machine浏览器扩展终极指南：一键找回消失的网页内容

Wayback Machine浏览器扩展终极指南：一键找回消失的网页内容【免费下载链接】wayback-machine-webextension A web browser extension for Chrome, Firefox, Edge, and Safari 14. 项目地址: https://gitcode.com/gh_mirrors/wa/wayback-machine-webextension …

2026/6/26 3:16:40 阅读更多

AI 建议加索引后查询仍变慢：从联合索引、回表与分页排序看慢 SQL 排查

慢 SQL 出现后，最常见的第一反应通常是：这个字段经常查，那就在这个字段上加个索引。很多 AI 辅助开发场景里，得到的建议也往往类似： CREATE INDEX idx_orders_status ON orders(status); CREATE INDEX idx_orders_crea…

2026/6/26 3:16:20 阅读更多

非遗工艺服饰销量预测模型，输入苏绣，扎染，蜡染工艺，测算单品市场潜力，

用 Python 构建非遗工艺服饰销量预测模型，通过对苏绣、扎染、蜡染三大工艺的输入参数，测算单品市场潜力，并以中立视角呈现预测结果。一、实际应用场景描述在《时尚产业与品牌创新》课程中，"非遗活化与时尚产业化"是近…

2026/6/26 3:16:20 阅读更多

Matplotlib Seaborn 数据可视化

数据可视化是数据分析中不可或缺的一环，而Matplotlib和Seaborn作为Python生态中最强大的可视化工具，能够帮助用户将复杂的数据转化为直观的图表。无论是科研、商业分析还是日常数据探索，这两大库都能提供丰富的图形类型和灵活的定制选项。Mat…

2026/6/26 4:32:35 阅读更多

Spring Boot Starter 自定义开发指南

Spring Boot Starter 自定义开发指南 Spring Boot Starter作为Spring生态中简化依赖管理的核心组件，能够将复杂的配置封装为开箱即用的模块。对于希望深度定制化或扩展功能的开发者而言，掌握Starter的自定义开发至关重要。本文将围绕Starter的设计原理与…

2026/6/26 4:32:15 阅读更多

061、TensorFlow Lite Micro的Multi-model Pipeline项目：多模型流水线

061 TensorFlow Lite Micro的Multi-model Pipeline项目：多模型流水线昨晚调试一块STM32U5板子到凌晨三点，问题出在一个看似简单的多模型切换上——两个模型分别做关键词识别和手势分类，单独跑都正常，一组合就随机死机。最后发现是模型A的中间张量缓冲区被模型B的推理过程…

2026/6/26 4:31:55 阅读更多

Spring Boot 自定义 Starter 模板

Spring Boot 自定义 Starter 模板：简化依赖整合的利器在微服务架构盛行的今天，Spring Boot 以其“约定优于配置”的理念成为开发者的首选。当团队需要复用特定功能（如日志监控、权限校验）时，重复配置依赖和代码会成为…

2026/6/26 4:31:55 阅读更多

高速差分时钟信号的T型拓扑分支阻抗设计：从理论到工程实践

高速差分时钟信号的T型拓扑分支阻抗设计：从理论到工程实践摘要在高速数字电路设计中，时钟信号的分支拓扑阻抗匹配是确保信号完整性的关键环节。本文针对一个典型设计场景——100Ω差分时钟信号经T型拓扑分至4路分支，且要求分支等长——系统探讨了阻抗设计的理论依据与工…

2026/6/26 4:31:34 阅读更多

深度学习框架模型YOLO如何训练胶皮导线输电线皮质导线配网绝缘导线烧伤检测图像数据集，

配网绝缘导线烧伤检测图像数据集，总共1500多张图像，标注为voc (xml)格式,也可以转yolo (txt)格式 111配网绝缘导线烧伤检测数据集信息表信息项详细内容数据集名称配网绝缘导线烧伤检测数据集任务类型2D目标检测图像总量1500余张标注格式原生VOC(XML)格式…

2026/6/26 4:31:14 阅读更多

Qwen2.5-Turbo百万上下文实战指南：百炼平台长文本处理全解析

1. 项目概述：这不是一次普通模型更新，而是一次上下文能力的质变跃迁“Qwen2.5-Turbo上线阿里云百炼平台，模型上下文长度扩展至百万tokens”——这句话里藏着三个关键信号：Turbo不是简单提速，而是面向生产环境的工程化重…

2026/6/26 0:00:43 阅读更多

Kotlin的@JvmStatic与@JvmField：与Java互操作的注解

Kotlin作为一门现代编程语言，与Java的互操作性一直是其核心优势之一。为了让Kotlin代码能够无缝对接Java，Kotlin提供了多种注解来优化互操作体验，其中JvmStatic和JvmField是两个关键注解。它们分别用于解决静态成员和字段在Java中的访问问题&…

2026/6/26 0:02:05 阅读更多

AI 驱动下 GEO 与 SEO 融合实战指南

摘要：本文深入探讨了从传统SEO到生成式搜索（GEO）的范式转移，为技术内容创作者揭示了新搜索生态下的挑战与机遇。面对大模型直接生成答案的趋势，单纯的关键词排名已不足以保证流量。文章系统性地提出了三大核心策略&…

2026/6/26 0:02:25 阅读更多

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”，而是Google埋下的第一道技术门槛你看到标题里那个醒目的“$300美金”时，第一反应可能是：又一个免费额度？领完就完事？我亲手试过——这300美金根本不是红包，而是一张入场券&…

2026/6/26 1:06:03 阅读更多

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程【免费下载链接】diff-pdf A simple tool for visually comparing two PDF files 项目地址: https://gitcode.com/gh_mirrors/di/diff-pdf 还在为PDF文档的版本对比而烦恼吗？diff-pdf这款开…

2026/6/26 1:06:07 阅读更多

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件：从原理到实战的深度解析在嵌入式系统开发中，图形用户界面（GUI）的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台，嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/26 1:06:11 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/25 12:27:19 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/25 12:27:19 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/25 12:27:19 阅读更多

相关文章

Wayback Machine浏览器扩展终极指南：一键找回消失的网页内容

AI 建议加索引后查询仍变慢：从联合索引、回表与分页排序看慢 SQL 排查

非遗工艺服饰销量预测模型，输入苏绣，扎染，蜡染工艺，测算单品市场潜力，

Matplotlib Seaborn 数据可视化

Spring Boot Starter 自定义开发指南

061、TensorFlow Lite Micro的Multi-model Pipeline项目：多模型流水线

Spring Boot 自定义 Starter 模板

高速差分时钟信号的T型拓扑分支阻抗设计：从理论到工程实践

深度学习框架模型YOLO如何训练胶皮导线 输电线皮质导线 配网绝缘导线烧伤检测图像数据集，

Qwen2.5-Turbo百万上下文实战指南：百炼平台长文本处理全解析

Kotlin的@JvmStatic与@JvmField：与Java互操作的注解

AI 驱动下 GEO 与 SEO 融合实战指南

Google AI Studio 300美元额度的真相与实战指南

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

深度学习框架模型YOLO如何训练胶皮导线输电线皮质导线配网绝缘导线烧伤检测图像数据集，