【系统学AI】25 论文导读 ①：两篇改变 AI 的开山之作——Attention Is All You Need ReAct

发布时间：2026/6/3 1:03:27

本文是「AI 学习计划」系列第 27 篇模块 07 论文导读第 1 篇。选这两篇放一起读Transformer 定义了大模型怎么思考ReAct 定义了大模型怎么行动。一个是引擎一个是方向盘。论文 AAttention Is All You Need2017基本信息项内容标题Attention Is All You Need作者Vaswani, Shazeer, Parmar, Uszkoreit, Jones, Gomez, Kaiser, PolosukhinGoogle Brain Google Research发表NeurIPS 2017引用130,000截至 2026AI 领域史上引用最高的论文之一链接https://arxiv.org/abs/1706.03762一句话总结完全抛弃 RNN/CNN仅用自注意力机制Self-Attention构建序列到序列模型速度更快、效果更好。这篇论文解决了什么问题2017 年之前NLP 的主流架构是 RNNLSTM/GRU问题 1无法并行——RNN 必须逐步处理序列token 1 算完才能算 token 2GPU 利用率极低问题 2长距离遗忘——序列太长时前面的信息到后面就忘了梯度消失问题 3训练慢——因为无法并行大规模训练代价极高Transformer 的解法用注意力机制一次性看完整个序列每个 token 都能直接关注到任意远处的 token且所有计算完全可并行。核心架构拆解5 个关键模块输入 → [Embedding 位置编码] → [Encoder ×6] → [Decoder ×6] → 输出1. Self-Attention自注意力——论文核心Attention(Q, K, V) softmax(QK^T / √d_k) · VQQuery我在找什么KKey我有什么标签VValue我的实际内容√d_k缩放因子防止点积过大导致 softmax 梯度消失直觉理解每个词对其他所有词做一次相关性投票投票结果决定这个词应该关注谁。2. Multi-Head Attention多头注意力不是做一次注意力而是做h8 次8 个头每个头关注不同的语义维度头 1 可能关注语法关系头 2 可能关注语义相似度头 3 可能关注位置邻近性最后把 8 个头的结果拼起来过一个线性层。3. 位置编码Positional Encoding因为注意力机制本身不知道顺序它是并行计算的需要手动注入位置信息PE(pos, 2i) sin(pos / 10000^(2i/d)) PE(pos, 2i1) cos(pos / 10000^(2i/d))为什么用三角函数因为它能让模型学到相对位置两个位置的编码差是固定模式。2026 注现代大模型已用RoPE旋转位置编码替代支持更长上下文。但理解原始设计是基础。4. Feed-Forward NetworkFFN每个 Attention 层后面跟一个两层 MLPFFN(x) max(0, xW₁ b₁)W₂ b₂有人把 FFN 比喻为记忆库——注意力层负责理解关系FFN 负责存储知识。5. 残差连接 Layer Norm每个子层都是output LayerNorm(x SubLayer(x))残差连接让梯度能直接流回底层解决深层网络训练难题LayerNorm 让训练更稳定。为什么这篇论文改变了一切影响具体表现GPT 系列只用 Decoder自回归GPT-1→GPT-5.5BERT 系列只用 Encoder双向BERT→RoBERTa→DeBERTaT5/GLMEncoder-Decoder 完整使用Vision Transformer把图像切成 patch 当 token 处理扩散模型Stable Diffusion 的 U-Net 里嵌入了 Cross-Attention一句话总结影响2017 年后 AI 领域几乎所有突破都建立在 Transformer 之上。读这篇论文的正确姿势先看 Figure 1架构图——建立全局直觉重点读 §3.2Scaled Dot-Product Attention——核心公式理解 §3.2.2Multi-Head——为什么多个头比一个好跳过 §5.4训练细节——除非你要复现配合 Jay Alammar 的 Illustrated Transformer 一起看——可视化版论文 BReAct — Synergizing Reasoning and Acting in Language Models2022基本信息项内容标题ReAct: Synergizing Reasoning and Acting in Language Models作者Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan CaoPrinceton Google Brain发表ICLR 2023 (Spotlight)引用4,000Agent 领域引用最高的论文之一链接https://arxiv.org/abs/2210.03629一句话总结让 LLM 在生成推理过程Thought的同时生成行动Action形成 Thought→Action→Observation 循环显著提升复杂任务完成能力。解决了什么问题2022 年之前LLM 有两个流派Chain-of-ThoughtCoT让模型一步步想但只能推理不能行动不能搜索、不能计算Action-only让模型直接调工具但没有推理过程经常做蠢事ReAct 把两者合并先想为什么要做Thought再做Action看到结果Observation再想下一步。核心范式Thought-Action-Observation 循环用户问题: Apple Remote 能控制哪些程序这些程序的原开发者是谁 Thought 1: 我需要先搜索 Apple Remote 能控制什么程序。 Action 1: Search[Apple Remote] Observation 1: Apple Remote 可以控制 Front Row 和 iTunes... Thought 2: 我知道 Apple Remote 能控制 Front Row我需要查 Front Row 的开发者。 Action 2: Search[Front Row software] Observation 2: Front Row 是 Apple 开发的... Thought 3: 现在我还需要查 iTunes 的原开发者。 Action 3: Search[iTunes original developer] Observation 3: iTunes 最初由 Jeff Robbin 和 Bill Kincaid 开发... Thought 4: 我现在有了所有信息。 Action 4: Finish[Front Row 和 iTunes。Front Row 由 Apple 开发iTunes 最初由 Jeff Robbin 和 Bill Kincaid 开发。]关键实验结果任务CoT-onlyAct-onlyReActHotpotQA多跳问答29.4%25.7%34.2%FEVER事实验证56.3%58.2%64.1%ALFWorld交互游戏—45%71%WebShop网页购物—62.4%66.6%为什么 ReAct 这么重要定义了 Agent 的基本范式所有后续 Agent 框架LangChain、AutoGPT、Claude都是 ReAct 的变体证明了边想边做比只想不做或只做不想都好可观察性极强Thought 让人能看懂 Agent 为什么这么做便于调试通用性极强问答、推理、交互环境、网页操作都能用ReAct 的局限性2026 视角局限后续解法单步推理缺乏全局规划Plan-then-Execute 范式无法自我纠错Reflexion自我反思 Agent工具调用粒度粗Anthropic Computer Use / MCP上下文越来越长Extended Thinking / Claude Opus 4.7 100K thinking读这篇论文的正确姿势先看 Figure 1ReAct vs CoT vs Act 对比图——30 秒建立直觉重点读 §3ReAct 格式定义——理解 Thought/Action/Observation 的形式化仔细看 §4.1 的例子HotpotQA——最直觉的演示Table 1-3 的实验结果——量化证据§5.2 错误分析——理解 ReAct 在哪里会失败两篇论文的关系Transformer2017 ReAct2022 ↓ ↓ 定义了LLM 怎么思考定义了LLM 怎么行动 ↓ ↓ GPT/Claude/DeepSeek... LangChain/AutoGPT/Manus... ↓ ↓ ←←← 合在一起 →→→ ↓ 2024-2026: Agent 时代爆发 Claude Computer Use / Agentforce / Devin如果你只读两篇 AI 论文Transformer 让你理解引擎ReAct 让你理解方向盘。引擎方向盘能跑的 Agent。延伸阅读Illustrated TransformerJay Alammar — 最佳可视化入门3Blue1Brown: Attention in Transformers — 数学直觉Reflexion: Language Agents with Verbal Reinforcement Learning — ReAct 的自我纠错升级版Anthropic: Building Effective Agents — ReAct 思想在工业界的最终形态路易乔布斯 © 2026 「AI 学习计划」系列第 27 篇模块 07 论文导读 1/3

不想把访客数据送给 Google？15 分钟自建 Umami 网站统计先聊聊

转载自我的个人博客先聊聊我的博客上线以后，一直有个痒点：到底有没有人看？ Google Analytics 能回答这个问题，但我实在不想装——一个统计脚本几十 KB，拖慢加载速度不说，还把每个访客的行为数据送给 G…

2026/6/3 1:03:27 阅读更多

【系统学AI】论文导读 ②：GraphRAG 与 DPO——检索增强和对齐训练的两大突破

本文是「AI 学习计划」系列第 28 篇，模块 07 论文导读第 2 篇。 GraphRAG 重新定义了"怎么检索"，DPO 重新定义了"怎么对齐"。一个让模型找得到，一个让模型说得好。论文 A：From Local to Global — GraphRAG&…

2026/6/3 1:03:07 阅读更多

告别抢票焦虑！95%成功率的Python大麦网自动化抢票系统终极指南

告别抢票焦虑！95%成功率的Python大麦网自动化抢票系统终极指南【免费下载链接】ticket-purchase 大麦自动抢票，支持人员、城市、日期场次、价格选择项目地址: https://gitcode.com/GitHub_Trending/ti/ticket-purchase 还在为热门演唱会门票秒光…

2026/6/3 1:03:07 阅读更多

MUSE数据立方体与通道图在天文研究中的应用

1. 通道图基础与MUSE数据立方体解析通道图（Channel Maps）是天文学家研究星际介质动力学的重要工具。简单来说，它就像给宇宙气体做"CT扫描"——将天体发出的光按不同速度切片，让我们能观察气体在不同径向速度下的空间分…

2026/6/3 1:51:04 阅读更多

AMLA技术：优化大型语言模型注意力计算的新突破

1. AMLA技术背景与核心挑战在大型语言模型（LLM）领域，注意力机制作为Transformer架构的核心组件，其计算效率直接影响模型性能。传统多头注意力（MHA）面临两个主要瓶颈：一是随着上下文窗口扩展&…

2026/6/3 1:51:04 阅读更多

小红书笔记高清图/视频本地批量提取工具（Python脚本）

本文还有配套的精品资源，点击获取简介：直接运行就能从小红书笔记里批量抓取原图和无水印视频的本地Python工具，不需要第三方平台或API。核心模块包括模拟请求的XHSRequests、动态生成Header的HeaderTemplate、通用处理函数XSUtils&#x…

2026/6/3 1:50:44 阅读更多

杰理之耳机进入powerdown后，电平跟随powerdown跳动【篇】

设置PB1输出高电平

2026/6/3 1:50:44 阅读更多

Alias许可不够用：汽车A面设计团队的浮点许可优化方案

别急着申请加买Alias授权——A面团队喊"许可不够"十有八九是浮点许可被白占着不释放，不是真不够。我2026年初帮华南某主机厂外饰A面组（Alias AutoStudio 2026，20个浮动并发/32名设计师）做优化，不改采购量&am…

2026/6/3 1:50:03 阅读更多

告别引导失败：详解CentOS 7 UEFI安装时`inst.stage2=hd:LABEL`找不到设备的排查与修复

告别引导失败：详解CentOS 7 UEFI安装时inst.stage2hd:LABEL找不到设备的排查与修复在服务器和工作站的日常运维中，CentOS 7因其稳定性和长期支持依然是许多企业的首选。然而，当我们在Dell OptiPlex等主流机型上通过UEFI模式安装时&#xff0c…

2026/6/3 1:49:43 阅读更多

解决Unity打包EXE后Universal Media Player播放RTSP失败：从修改Player Settings到手动修复UMPPostBuilds.cs

Unity打包EXE后Universal Media Player播放RTSP失败的深度修复指南当你在Unity中使用Universal Media Player（UMP）插件成功实现了RTSP流的播放，却在打包EXE后遭遇"无画面"或"找不到库文件"的错误时，这种从开发…

2026/6/3 0:00:49 阅读更多

ESP32工业物联网控制器：4-20mA压力变送器信号采集与处理实战

1. 项目概述与核心价值在工业现场，数据采集的稳定性和准确性是命脉。无论是监测管道压力、罐体液位还是电机转速，我们都需要将物理世界的信号，可靠地转换为控制系统能理解的“语言”。这其中，4-20mA电流环信号堪称工业模拟信号传输…

2026/6/3 0:00:49 阅读更多

基于Arduino与超声波传感器的DIY无人机计时门设计与实现

1. 项目概述：为FPV竞速增添专业感的DIY计时门如果你和我一样，家里有个对FPV无人机着迷的孩子，或者你自己就是个竞速爱好者，那你肯定理解那种想给自家的小型无人机赛道增加点“专业感”的冲动。我们在地下室用纸箱、呼啦圈搭过各种…

2026/6/3 0:00:49 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/2 3:04:55 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/2 3:51:01 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/2 1:12:03 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/2 5:03:37 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/2 0:27:25 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/2 2:18:01 阅读更多

相关文章

不想把访客数据送给 Google？15 分钟自建 Umami 网站统计先聊聊

【系统学AI】论文导读 ②：GraphRAG 与 DPO——检索增强和对齐训练的两大突破

告别抢票焦虑！95%成功率的Python大麦网自动化抢票系统终极指南

MUSE数据立方体与通道图在天文研究中的应用

AMLA技术：优化大型语言模型注意力计算的新突破

小红书笔记高清图/视频本地批量提取工具（Python脚本）

杰理之耳机进入powerdown后，电平跟随powerdown跳动【篇】

Alias许可不够用：汽车A面设计团队的浮点许可优化方案

告别引导失败：详解CentOS 7 UEFI安装时`inst.stage2=hd:LABEL`找不到设备的排查与修复

解决Unity打包EXE后Universal Media Player播放RTSP失败：从修改Player Settings到手动修复UMPPostBuilds.cs

ESP32工业物联网控制器：4-20mA压力变送器信号采集与处理实战

基于Arduino与超声波传感器的DIY无人机计时门设计与实现

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因