Transformers 架构核心原理：从注意力机制到 GPT

发布时间：2026/5/20 4:10:53

Transformers 架构核心原理从注意力机制到 GPT前言Transformers 架构是现代大语言模型的基石。无论是 GPT 系列、LLaMA、还是 BERT都基于 Transformer 的核心组件构建。理解它的原理对于更好地使用和优化大模型至关重要。我最初学习 Transformers 时翻阅了大量论文和教程但很多解释要么过于简略要么陷入过多的数学细节。今天想用清晰的思路把 Transformers 的核心组件和演进历程讲清楚。注意力机制详解注意力机制的起源注意力机制最早出现在序列到序列模型中用于解决 RNN 难以处理长序列的问题。其核心思想是在生成每个输出时模型应该关注输入序列的不同部分。自注意力机制Self-Attention自注意力是 Transformers 的核心创新。它允许序列中的每个位置关注序列中的所有其他位置import torch import torch.nn as nn import torch.nn.functional as F import math class SelfAttention(nn.Module): def __init__(self, embed_size, heads): super().__init__() self.embed_size embed_size self.heads heads self.head_dim embed_size // heads assert self.head_dim * heads embed_size, embed_size must be divisible by heads # QKV 投影 self.qkv nn.Linear(embed_size, embed_size * 3) # 输出投影 self.fc_out nn.Linear(embed_size, embed_size) def forward(self, x, maskNone): N, seq_len, _ x.shape # 线性变换得到 Q, K, V qkv self.qkv(x) qkv qkv.reshape(N, seq_len, 3, self.heads, self.head_dim) qkv qkv.permute(2, 0, 3, 1, 4) # (3, N, heads, seq_len, head_dim) q, k, v qkv[0], qkv[1], qkv[2] # 计算注意力分数 energy torch.einsum(nqhd,nkhd-nhqk, [q, k]) / math.sqrt(self.head_dim) # energy: (N, heads, seq_len, seq_len) if mask is not None: energy energy.masked_fill(mask 0, float(-1e20)) # softmax 得到注意力权重 attention F.softmax(energy, dim-1) # 加权求和 out torch.einsum(nhql,nlhd-nqhd, [attention, v]) out out.reshape(N, seq_len, self.heads * self.head_dim) return self.fc_out(out)多头注意力Multi-Head Attention多头注意力让模型能够同时关注不同位置的不同表示子空间class MultiHeadAttention(nn.Module): def __init__(self, embed_size, num_heads, dropout0.1): super().__init__() self.attention SelfAttention(embed_size, num_heads) self.norm nn.LayerNorm(embed_size) self.dropout nn.Dropout(dropout) def forward(self, x, maskNone): # Pre-LN 风格现代常用 x self.norm(x) attention_out self.attention(x, mask) return x self.dropout(attention_out)位置编码Positional Encoding由于自注意力机制本身不包含位置信息需要手动添加位置编码class PositionalEncoding(nn.Module): def __init__(self, embed_size, max_len5000, dropout0.1): super().__init__() self.dropout nn.Dropout(dropout) # 创建位置编码 pe torch.zeros(max_len, embed_size) position torch.arange(0, max_len, dtypetorch.float).unsqueeze(1) div_term torch.exp(torch.arange(0, embed_size, 2).float() * (-math.log(10000.0) / embed_size)) pe[:, 0::2] torch.sin(position * div_term) pe[:, 1::2] torch.cos(position * div_term) pe pe.unsqueeze(0) # (1, max_len, embed_size) self.register_buffer(pe, pe) def forward(self, x): x x self.pe[:, :x.shape[1], :] return self.dropout(x)Transformer 编码器前馈网络Feed Forward Network每个 Transformer 层还包含一个前馈网络class FFN(nn.Module): def __init__(self, embed_size, ff_dim, dropout0.1): super().__init__() self.linear1 nn.Linear(embed_size, ff_dim) self.linear2 nn.Linear(ff_dim, embed_size) self.dropout nn.Dropout(dropout) self.activation nn.GELU() def forward(self, x): return self.linear2(self.dropout(self.activation(self.linear1(x))))完整编码器层class TransformerEncoderLayer(nn.Module): def __init__(self, embed_size, num_heads, ff_dim, dropout0.1): super().__init__() self.attention MultiHeadAttention(embed_size, num_heads, dropout) self.ffn FFN(embed_size, ff_dim, dropout) self.norm1 nn.LayerNorm(embed_size) self.norm2 nn.LayerNorm(embed_size) self.dropout nn.Dropout(dropout) def forward(self, x, maskNone): # 自注意力残差 x x self.dropout(self.attention(x, mask)) # FFN 残差 x x self.dropout(self.ffn(self.norm2(x))) return x class TransformerEncoder(nn.Module): def __init__(self, num_layers, embed_size, num_heads, ff_dim, dropout0.1): super().__init__() self.layers nn.ModuleList([ TransformerEncoderLayer(embed_size, num_heads, ff_dim, dropout) for _ in range(num_layers) ]) self.norm nn.LayerNorm(embed_size) def forward(self, x, maskNone): for layer in self.layers: x layer(x, mask) return self.norm(x)Transformer 解码器因果掩码Causal Mask解码器需要防止看到未来的信息def create_causal_mask(seq_len, device): 创建因果掩码上三角为负无穷 mask torch.triu(torch.ones(seq_len, seq_len, devicedevice), diagonal1) return mask.masked_fill(mask 1, float(-inf))完整解码器层class TransformerDecoderLayer(nn.Module): def __init__(self, embed_size, num_heads, ff_dim, dropout0.1): super().__init__() self.self_attention MultiHeadAttention(embed_size, num_heads, dropout) self.cross_attention MultiHeadAttention(embed_size, num_heads, dropout) self.ffn FFN(embed_size, ff_dim, dropout) self.norm1 nn.LayerNorm(embed_size) self.norm2 nn.LayerNorm(embed_size) self.norm3 nn.LayerNorm(embed_size) self.dropout nn.Dropout(dropout) def forward(self, x, encoder_output, src_maskNone, tgt_maskNone): # 自注意力因果 x x self.dropout(self.self_attention(self.norm1(x), tgt_mask)) # 交叉注意力关注编码器输出 x x self.dropout(self.cross_attention(self.norm2(x), encoder_output, src_mask)) # FFN x x self.dropout(self.ffn(self.norm3(x))) return xGPT 架构详解GPT 与 BERT 的区别GPTGenerative Pre-trained Transformer和 BERT 虽然都基于 Transformer但架构上有重要区别特性GPTBERT注意力单向因果双向预训练任务下一词预测掩码语言模型适用场景生成任务理解任务层数通常更多相对较少GPT-2 架构实现class GPT2Model(nn.Module): def __init__( self, vocab_size, embed_size, num_heads, num_layers, ff_dim, max_seq_len, dropout0.1 ): super().__init__() # 词嵌入 self.token_embedding nn.Embedding(vocab_size, embed_size) self.position_embedding PositionalEncoding(embed_size, max_seq_len, dropout) # Transformer 解码器层 self.layers nn.ModuleList([ TransformerDecoderLayer(embed_size, num_heads, ff_dim, dropout) for _ in range(num_layers) ]) self.norm nn.LayerNorm(embed_size) self.head nn.Linear(embed_size, vocab_size, biasFalse) # 权重绑定 self.head.weight self.token_embedding.weight def forward(self, x, targetsNone): # 词嵌入位置编码 x self.token_embedding(x) x self.position_embedding(x) # 因果掩码 seq_len x.shape[1] causal_mask create_causal_mask(seq_len, x.device) # Transformer 层 for layer in self.layers: x layer(x, None, None, causal_mask) x self.norm(x) logits self.head(x) loss None if targets is not None: loss F.cross_entropy( logits.view(-1, logits.size(-1)), targets.view(-1) ) return {loss: loss, logits: logits}演进从 Transformer 到现代 LLM关键技术演进Post-LN → Pre-LN原始 Transformer 使用 Post-LNLayerNorm 在残差之后现代模型多使用 Pre-LNLayerNorm 在残差之前更稳定固定位置编码 → RoPERoPERotary Position Embedding成为主流更好的外推能力处理比训练时更长的序列GELU 激活函数替代原始的 ReLU如 GELU(x) x * Φ(x)RMSNorm更高效的归一化减少计算量GPT-3 的创新GPT-3 引入了几个关键创新Sparse Attention不是所有 token 都两两关注减少计算复杂度In-Context Learning通过 prompt 中的示例学习新任务更大的模型和数据集1750 亿参数3000 亿 token 训练数据总结Transformers 架构的核心是自注意力机制它让模型能够灵活地关注输入序列的任意部分。多头注意力、位置编码、残差连接等技术共同构成了这个强大的架构。理解这些底层原理不仅能帮助我们更好地使用现有模型还能为未来的优化和创新打下基础。

Arduino入门教程五｜串口通信详解（3个实验+if条件判断，保姆级入门）

我整理了一套Arduino 零基础从入门到高级完整系统课程，包含视频讲解、全套源码、接线图纸、库文件、ESP32/ESP32-S3 摄像头 & 物联网实战项目，循序渐进，新手也能零基础吃透。需要系统学习可以查看我主页专属课程（零基础保姆…

2026/5/20 4:10:53 阅读更多

蓝桥杯C++选手必看：动态规划从入门到拿分，我用这5道题搞定了（附完整代码）

蓝桥杯C选手的DP破局之道：五题构建动态规划思维框架动态规划（DP）是算法竞赛中最令人又爱又恨的领域——它既能高效解决复杂问题，又常让初学者望而生畏。对于备战蓝桥杯的C选手而言，掌握DP不仅意味着能拿下关键分数&am…

2026/5/20 4:10:13 阅读更多

【MySQL百日打怪升级第8天】SELECT执行流程

【第8天】每天一个MySQL知识点，百日打怪升级 SQL基础：SELECT执行流程大家好，我是一名拥有10年以上经验的DBA老兵。做这个系列，源于一个朴素的愿望：把踩过的坑、总结的经验系统化输出，希望能帮到刚入行或…

2026/5/20 4:09:12 阅读更多

地空协同巡检新范式：elec-ops-inspection 3D空间建模技术

地空协同巡检新范式：elec-ops-inspection 3D空间建模技术【免费下载链接】elec-ops-inspection elec-ops-inspection 是 CANN 社区 Electrical Engineering SIG（电力行业兴趣小组）旗下的电力装备巡检算子库， 覆盖 CV 视觉检测与具…

2026/5/20 4:54:59 阅读更多

XLA-NPU企业级部署：在生产环境中大规模使用昇腾NPU的最佳实践

XLA-NPU企业级部署：在生产环境中大规模使用昇腾NPU的最佳实践【免费下载链接】xla-npu XLA-NPU 是一个面向华为昇腾NPU硬件的 XLA后端实现。本项目通过接入OpenXLA/XLA开源项目，将XLA开源生态与华为 CANN软件栈集成，对接JAX框架。JAX框架运行…

2026/5/20 4:54:19 阅读更多

Fetch源码深度剖析：从请求入队到文件写入的完整流程

Fetch源码深度剖析：从请求入队到文件写入的完整流程【免费下载链接】Fetch The best file downloader library for Android 项目地址: https://gitcode.com/gh_mirrors/fetch/Fetch Fetch作为Android平台上优秀的文件下载库，其内部实现了一套高效…

2026/5/20 4:54:19 阅读更多

穿透算法黑箱：2026论文降AI率工具深度测评，早标网语义保真度99%

一、测评前言2026 年国内高校、期刊编辑部已全面上线知网 4.0、维普 2026 版、万方学术风控 3.0 三大 AIGC 溯源审核机制，检测逻辑从 "抓词频" 彻底升级为 "读思维"，新增段落逻辑结构、用词习惯画像、语义熵检测等核心维度。浅层同义…

2026/5/20 4:51:17 阅读更多

小米路由器4A千兆版刷机翻车实录：从Breed救砖到完美刷入Padavan固件全记录

小米路由器4A千兆版救砖实战：从硬件识别到Padavan固件完美适配深夜的台灯下，我盯着桌面上那台已经变砖的小米路由器4A千兆版，USB转TTL模块的指示灯微弱地闪烁着。这已经是本周第三次尝试救砖了——前两次要么是夹子接触不良导致校验失败&…

2026/5/20 4:50:16 阅读更多

新手也能搞定的12V转5V Buck电源：手把手教你用Multisim仿真验证设计

从零开始设计12V转5V Buck电源：Multisim仿真全流程指南第一次接触DC-DC电源设计时，面对各种参数计算和仿真验证，很多新手都会感到无从下手。本文将带你一步步完成12V转5V的Buck电源设计，从理论计算到Multisim仿真验证&#xff0c…

2026/5/20 4:50:16 阅读更多

顶伯在线语音工具背后的技术力量：AI语音合成与深度学习解析

顶伯在线语音工具背后的技术力量在人工智能浪潮中，语音交互正成为人机沟通的核心方式。顶伯作为行业领先的在线语音工具，凭借自主研发的深度学习架构，将文字转化为高度自然的语音，广泛应用于有声阅读、智能客服、教育辅助等领域。…

2026/5/20 0:00:25 阅读更多

全志V3s开发板实战：用Buildroot 2020.02.4定制你的第一个最小Linux文件系统

全志V3s开发板实战：用Buildroot 2020.02.4定制最小Linux文件系统在嵌入式开发领域，构建一个精简高效的Linux文件系统往往是项目成功的关键第一步。全志V3s作为一款高性价比的ARM Cortex-A7芯片，搭配Buildroot这一经典构建工具，能…

2026/5/20 0:00:25 阅读更多

百考通：AI赋能期刊论文写作，智能生成优质内容

在学术研究领域，期刊论文的撰写是成果输出的关键环节，却也让众多科研工作者与学生倍感压力：选题迷茫、逻辑梳理困难、格式规范复杂、内容提炼耗时，严重拖慢了学术成果的发表节奏。百考通（https://www.baikaotongai.com…

2026/5/20 0:00:46 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/19 4:14:12 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/19 6:17:20 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/20 2:02:06 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/19 0:13:34 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/20 3:00:53 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/19 22:33:20 阅读更多

相关文章