写在前面欢迎大家关注Rocky的公众号WeThinkIn欢迎大家关注Rocky的知乎Rocky DingAIGC算法工程师/开发工程师面试面经秘籍分享WeThinkIn/Interview-for-Algorithm-Engineer欢迎大家StarAIGC时代的《三年面试五年模拟》AI算法工程师/开发工程师求职面试秘籍独家资源【三年面试五年模拟】AI算法工程师面试秘籍Rocky最新撰写AI AgentAI智能体的深入浅出全维度解析文章深入浅出完整解析AI AgentAI智能体的核心基础知识AIGC算法岗/开发岗面试面经交流社群涵盖AI Agent、AIGC图像创作、AI视频、LLM大模型、AI多模态、数字人、传统深度学习、具身智能等AIGC面试干货资源欢迎大家加入https://t.zsxq.com/33pJ0大家好我是Rocky。核心导读Lilian Weng 这篇《LLM Powered Autonomous Agents》写于 2023 年 6 月是早期把大模型智能体讲清楚的一篇关键技术博客。它的价值不在于提出某个单点算法而在于给出了一个非常稳定的系统框架当 LLM 成为 Agent 的“大脑”之后真正决定系统能力上限的不只是模型参数本身而是围绕模型搭起来的规划、记忆和工具调用系统。Rocky 认为这篇文章到今天仍然值得反复读原因很简单它没有把 Agent 神化成“自动完成一切的数字员工”也没有把 Agent 降低成“Prompt 工程的小技巧集合”。它讨论的是一个更底层的问题如何把一个擅长语言建模的模型改造成一个能分解任务、保存状态、调用工具、观察反馈并迭代修正的执行系统。如果用一句话概括这篇文章的主线LLM Agent 的核心不是“模型会思考”而是“模型被放进了一个可执行、可记忆、可反馈的闭环里”。规划负责把目标拆成步骤记忆负责让系统不被当前上下文窗口困住工具负责把语言能力接到外部世界自我反思负责让失败轨迹变成下一轮行动的约束。所谓自主智能体实质上是大模型从“回答器”向“任务控制器”的跃迁。这也是本文希望进一步展开的判断Agent 不是一个模型形态而是一种系统组织方式。大模型只是中枢真正让它接近“能做事”的是控制流、状态管理、外部工具、环境反馈和安全边界共同构成的工程结构。理解这一点比追逐某一个 Agent 框架更重要。问题背景作者到底想解决什么在 ChatGPT 出现之后行业很快发现大模型的能力并不止于写文章、写代码、回答问题。它还能在自然语言空间中做任务分解、生成计划、解释中间状态甚至根据外部反馈调整下一步行动。AutoGPT、BabyAGI、GPT-Engineer 这类早期 Demo 就是在这个背景下出现的它们把用户目标交给模型让模型自己拆解任务、调用命令、写文件、搜索信息最后尝试交付一个结果。但早期 Agent Demo 的兴奋点和风险点其实是同一个东西它们让模型“看起来”像在自主行动却也暴露出模型在长程任务、状态保持、工具调用可靠性、格式稳定性上的脆弱。模型可以生成计划但计划未必可执行模型可以反思失败但反思未必真实有效模型可以调用工具但参数、接口、返回结果处理都可能出错。Lilian Weng 的文章想解决的不是“如何做一个更酷的 Demo”而是把这些现象拆成可分析的系统模块。她把 LLM-powered autonomous agent 分成三个关键组件Planning、Memory、Tool use。这个拆法非常重要因为它把“智能体”从一个模糊词汇变成了可以被工程化讨论的结构。图 1 是全文的骨架。LLM 位于系统中心但它不是孤立工作的。规划模块让它能把大目标拆成子目标记忆模块让它能跨越有限上下文保存信息工具模块让它能访问模型权重之外的知识、计算和外部系统。真正的 Agent 能力不是这三个模块的简单相加而是它们形成一个循环模型提出行动工具产生观察记忆保存轨迹规划更新下一步。这张图的本质含义是大模型智能体不是“一个更长 Prompt”而是一套围绕 LLM 的认知操作系统。Prompt 只是入口Agent 系统真正要处理的是任务生命周期。核心思路用一句主线串起来如果把这篇文章当作 Agent 的技术地图可以看到一条非常清晰的递进关系。第一层是规划。没有规划模型只能在当前问题上生成一个局部答案有了规划模型才可能把复杂目标拆成多个可执行步骤。Chain of Thought、Tree of Thoughts、LLMP、ReAct、Reflexion 等方法本质上都在回答同一个问题如何让模型在行动之前、行动之中、行动之后形成更好的决策轨迹。第二层是记忆。没有记忆智能体会被 Transformer 的上下文窗口限制在一次对话里有了短期记忆和长期记忆系统才可能把历史经验、外部知识、用户偏好和任务状态重新带回当前决策。这里的关键不是“把所有东西都塞进上下文”而是如何用检索和表示机制在需要的时候找到真正相关的信息。第三层是工具。没有工具LLM 只能在参数化知识和当前上下文中工作有了工具模型才可以连接搜索、计算器、代码解释器、数据库、API、机器人实验平台、图像/音频/视频模型等外部能力。工具让模型从“语言空间”进入“操作空间”。第四层是案例与边界。ChemCrow、Generative Agents、AutoGPT、GPT-Engineer 等例子说明Agent 可以在科研、仿真、软件工程中产生新能力但也暴露出可靠性、安全性、长程规划和自然语言接口不稳定等问题。Rocky 认为这条主线背后有一个更底层的判断Agent 的能力不是来自“模型突然有了自我”而是来自系统把模型的语言推理能力转化成了可循环执行的过程。这也是为什么 Agent 不是单纯的模型 Benchmark 问题而是模型、检索、工具、环境、反馈和工程约束共同作用的问题。方法展开沿着原文逻辑拆解规划让模型从“回答问题”变成“推进任务”复杂任务通常不是一步完成的。写一段代码、完成一次调研、规划一次旅行、设计一个实验都需要把大目标拆成小目标并在执行过程中根据新信息调整路径。规划模块解决的正是这个问题。原文首先讨论的是 Chain of Thought。CoT 的核心做法很简单让模型“think step by step”用更多测试时计算把复杂问题拆成中间步骤。它的价值不只是提高答案准确率更重要的是让模型的中间推理过程以自然语言形式显性化。对于 Agent 来说这种显性化非常关键因为只有当中间步骤可以被看见、保存和检查后续的反思、纠错和工具调用才有入口。但 CoT 的局限也很明显它通常是一条线性的推理链。一旦前面的中间步骤偏掉后面可能会沿着错误方向继续扩展。Tree of Thoughts 试图解决这个问题它不是只生成一条思路而是在每个思考步骤上生成多个候选并用 BFS、DFS 或投票/评估器去搜索更好的路径。换句话说ToT 把大模型推理从“单路径生成”推向“搜索式决策”。这背后的本质变化是模型不再只是输出一个答案而是在构造一个可搜索的状态空间。一旦推理被看成状态空间Agent 就可以引入评估器、剪枝、回溯、外部规划器等传统 AI 和工程系统里的方法。LLMP 则更进一步把长程规划交给外部经典规划器。LLM 负责把自然语言问题翻译成 PDDL经典规划器负责生成计划再由 LLM 翻译回自然语言。这种路径很有启发在某些结构化场景里LLM 不一定要自己完成所有规划而可以作为自然语言和符号系统之间的接口。Rocky 认为LLMP 的意义不在于 PDDL 本身会成为所有 Agent 的标准而在于它提醒我们优秀的 Agent 系统不应该迷信“模型单独解决一切”。当外部规划器、优化器、数据库、规则系统更擅长某件事时LLM 更适合做语义理解、任务转译、结果解释和流程调度。自我反思把失败轨迹变成下一轮行动的约束如果说任务分解解决的是“下一步该做什么”自我反思解决的就是“做错之后如何变好”。现实任务充满试错Agent 不可能每一步都正确。关键不在于消灭失败而在于系统能不能识别失败、解释失败并把失败经验压缩成下一轮行动的上下文。ReAct 是这条路线的代表。它把 Reasoning 和 Acting 放在同一个循环里让模型交替生成 Thought、Action、Observation。Thought 是模型的中间推理Action 是对外部环境或工具的调用Observation 是环境返回的新信息。这样一来模型不是一次性生成答案而是在“想一想、做一步、看结果、再想一想”的循环中推进任务。图 2 展示了 ReAct 在知识密集型任务和决策任务中的轨迹。真正值得注意的是它把模型的语言推理和环境交互合在了一起。纯 Act-only 系统只能执行动作缺少可解释的中间推理纯 CoT 系统只有思考缺少环境反馈。ReAct 的价值在于把“思考”和“行动”组织成一个闭环。从工程角度看ReAct 的关键不只是 Prompt 模板而是状态机设计。Thought、Action、Observation 本质上是 Agent 的循环协议模型提出假设工具验证假设系统把验证结果重新交给模型。这也是为什么后来很多 Agent 框架虽然名称不同但底层循环仍然长得很像。Reflexion 在 ReAct 基础上加入了动态记忆和自我反思。它把任务看成一种强化学习式环境Agent 执行动作环境返回观察和奖励如果轨迹低效或出现幻觉系统可以停止当前尝试让模型生成反思并把反思写入工作记忆指导下一次尝试。图 3 的重点在于“反思不是一句口号”而是一种可以被写入记忆的中间对象。失败轨迹经过模型总结变成对未来行动有约束力的语言反馈。这使得 Agent 可以在不更新模型参数的情况下通过上下文中的经验积累改善后续表现。图 4 展示了 Reflexion 的实验结果也暴露出一个很重要的事实在环境交互任务里幻觉往往比“规划太慢”更常见。Agent 的失败不只是算力不够、步骤不够多而是模型可能在重复无效动作、误读观察、编造状态。自我反思机制可以缓解这类问题但它的效果依赖于系统能否可靠地检测失败轨迹。这里有一个很容易被忽略的边界自我反思并不等于真实学习。Reflexion 更多是在上下文层面让模型“记住这次失败的教训”它没有改变模型参数。它可以提升单任务或同类任务中的迭代表现但不能保证模型从根本上获得稳定的新能力。Rocky 认为理解这个边界非常重要否则很容易把 Agent 的上下文技巧误读成模型已经具备长期自主学习能力。Chain of Hindsight 则从训练角度讨论反思能力。它把人类反馈组织成一串逐步改进的输出让模型学习“看见历史反馈之后生成更好答案”的趋势。原文中的数据形式可以概括为给定 promptx xx、多个输出y i y_iyi、评分r i r_iri和反馈z i z_izi模型被训练在历史反馈序列条件下预测更高质量的最终输出y n y_nyn。图 5 说明了 CoH 的核心直觉模型不是只学习“正确答案长什么样”而是学习“输出如何沿着反馈变好”。这对 Agent 很重要因为 Agent 的行动通常不是一次生成完成而是在多轮观察和修正中逐渐接近目标。Algorithm Distillation 把类似思想放到强化学习轨迹里。它不只是蒸馏某个专家策略而是蒸馏“一个算法如何在多轮 episode 中变好”的过程。也就是说模型条件化在历史轨迹上学习下一步如何产生更好表现。图 6 很适合用来理解 Agent 的“经验压缩”问题。传统监督学习通常学的是输入到输出的映射而 AD 想学的是跨 episode 的改进过程。对 Agent 来说这意味着历史轨迹不是垃圾日志而是下一轮策略的重要条件。图 7 展示了 AD 在需要记忆和探索的环境中接近 RL^2 的表现同时比一些基线更快学习。需要注意的是原文也强调了上下文窗口的限制要让模型从多 episode 历史中学到东西上下文必须足够长episode 也必须足够短。这个限制在今天仍然非常现实。长上下文可以缓解问题但不能自动解决历史选择、压缩、检索和信用分配问题。因此规划模块真正带来的启发是Agent 的“智能”很大一部分来自过程组织。CoT、ToT、ReAct、Reflexion、CoH、AD 看起来方法不同但都在尝试把模型输出从一次性文本生成变成可拆解、可搜索、可反馈、可积累的行动过程。记忆有限上下文之外的状态管理Agent 要执行长任务就必须面对记忆问题。Transformer 的上下文窗口再长也不是无限的更重要的是任务中的所有历史信息并不都同等重要。真正的挑战不是“存下所有内容”而是“在当前决策时找回最相关的内容”。原文先借用人类记忆的分类区分感觉记忆、短期记忆、长期记忆。这个类比不是神经科学意义上的严格等价而是帮助我们理解 Agent 系统中的不同信息层级。图 8 对 Agent 设计很有启发。感觉记忆可以粗略对应原始输入的表示学习短期记忆对应当前上下文中的 in-context learning长期记忆对应外部向量数据库或其他可检索存储。也就是说Agent 的记忆并不只是一个“聊天记录”而是由表示、上下文、检索、排序、压缩共同构成的系统。Rocky 认为很多 Agent 项目失败不是因为没有接向量数据库而是因为把“存储”误当成了“记忆”。真正的记忆至少包含四个步骤写入什么、如何表示、何时检索、检索后如何影响决策。只把所有历史切块后塞进向量库往往会制造一种“看起来有长期记忆”的幻觉但在关键任务上并不能稳定帮助模型。原文讨论的 MIPS就是外部记忆工程化的底层问题。向量数据库通常把信息编码成 embedding然后在查询时做最大内积搜索或近似最近邻搜索。为了速度系统往往使用 ANN在少量准确率损失和大幅检索加速之间做权衡。图 9 比较了不同 MIPS 算法在 recall10 上的表现。LSH、ANNOY、HNSW、FAISS、ScaNN 等方法的差异表面上是检索算法差异背后其实是 Agent 记忆系统的工程取舍你是更在意召回准确率还是更在意响应速度是数据规模更大还是更新频率更高是语义相似就够了还是还要时间、来源、权限、重要性一起排序这也是为什么长期记忆不能被简单理解为“无限上下文”。向量检索提供的是相关信息的候选集而不是完整注意力。被检索出来的信息可能不完整、不新鲜、不可信也可能因为 embedding 表示偏差而遗漏关键线索。原文在挑战部分也提到检索可以扩展知识池但它的表示能力不等同于完整 attention。所以记忆模块的本质是状态管理。短期记忆负责当前任务上下文长期记忆负责跨任务和跨时间的信息沉淀检索机制负责把长期状态重新接入当前推理。好的 Agent 系统必须把记忆当成产品和工程问题一起设计哪些信息值得存哪些信息应该过期哪些信息具有权限边界哪些信息是事实哪些只是模型过去的猜测工具使用把语言模型接入外部世界如果没有工具LLM 再强也只能在已有参数和输入上下文里工作。工具使用让模型获得三类关键能力访问最新或私有信息执行精确计算和代码调用外部系统完成真实操作。原文用工具使用的类比引出这个模块人类使用工具来突破身体和认知限制。对 LLM 来说工具也是能力外延。搜索引擎弥补知识时效计算器弥补算术稳定性代码解释器弥补复杂执行数据库弥补私有信息访问行业 API 则把模型接入真实业务流程。图 10 的作用不是提供技术架构而是提醒我们工具使用是智能系统扩展能力边界的基本方式。Agent 的工具调用不应该被看成“让模型多几个插件”而应该被看成模型与外部世界之间的执行接口。MRKL 是较早把这种思想结构化的系统。它把通用 LLM 作为路由器把问题分发给一组专家模块。这些专家可以是神经网络模型也可以是符号工具比如计算器、汇率转换器、天气 API。MRKL 的关键判断是LLM 未必适合亲自完成所有子任务但可以负责识别问题类型、选择模块、组织输出。这里的难点并不在工具本身。计算器本来就比 LLM 更擅长算术数据库本来就比 LLM 更擅长存储事实。难点在于模型是否知道什么时候该用工具、该用哪个工具、该如何构造参数、如何解释工具返回。原文提到MRKL 在数学问题上发现显式算式比口头数学题更容易处理因为模型可能抽取不出正确参数。这是一个非常现实的提醒工具越强调用协议越重要。Toolformer、TALM 等方法试图通过训练让语言模型学会使用 API。它们的思路是判断新增 API 调用标注是否能改善模型输出然后用这些标注扩充训练数据。与纯 Prompt 式工具调用相比训练式工具使用更接近把“何时调用、如何调用”的能力内化到模型中。HuggingGPT 展示了更复杂的工具生态它把 ChatGPT 当作任务规划器根据 Hugging Face 上的模型描述选择合适模型执行子任务再汇总结果返回用户。图 11 展示了 HuggingGPT 的四阶段流程任务规划、模型选择、任务执行、结果生成。它的启发在于Agent 可以不只调用传统 API还可以调用其他 AI 模型。LLM 在这里像一个调度器负责把用户需求拆成多个任务再把任务分配给图像、语音、视频、文本等不同专家模型。但这套流程也暴露出真实系统的成本多轮 LLM 推理会带来延迟复杂任务内容会消耗上下文窗口外部模型服务会引入稳定性问题模型输出格式一旦不稳整个链路就可能失败。也就是说工具使用让 Agent 能力边界变大同时也让工程可靠性问题变得更尖锐。API-Bank 则把工具调用能力变成了可评测问题。它包含多种常用 API、完整的工具增强 LLM 工作流和带 API 调用标注的对话。它不仅评估模型能不能调用一个给定 API还评估模型能不能检索到合适 API以及在模糊用户需求下规划多个 API 调用。图 12 的价值在于它把“工具调用”拆成多个决策点是否需要 API、该调用哪个 API、参数是否正确、结果是否满足需求、是否需要再次调用。每一步都可能出错也都可以被单独评测。Rocky 认为工具调用是 Agent 从 Demo 走向生产的分水岭。演示一个 Agent 会调用搜索很容易构建一个在真实业务里稳定调用 API、处理异常、遵守权限、记录审计、可回滚的 Agent 则完全不同。真正的产品级 Agent必须把工具调用当作工程协议而不是一段自然语言魔法。案例从科研工具到生成式社会仿真原文的案例部分非常重要因为它让前面的模块从抽象结构落到具体系统里。ChemCrow 是科研场景里的代表。它把 LLM 和 13 个化学专家工具结合起来处理有机合成、药物发现、材料设计等任务。这个系统延续了 ReAct 和 MRKL 的思路模型根据任务选择工具在工具观察结果基础上继续推理。ChemCrow 的一个关键观察是LLM 作为评价器可能无法可靠判断深度专业领域里的答案质量。原文提到在 LLM-based evaluation 看起来 GPT-4 和 ChemCrow 接近但专家人工评估更关注完成度和化学正确性结果显示 ChemCrow 明显优于 GPT-4。这说明在专业领域里Agent 的价值往往不只是“回答更像”而是能不能把专业工具、约束和验证过程接入系统。Boiko 等人的科学发现 Agent 则进一步讨论了风险边界。它可以浏览互联网、阅读文档、执行代码、调用机器人实验 API也可以在药物发现等任务中产生实验计划。但当任务涉及已知化学武器或危险合成路径时系统可能出现安全风险。这个案例提醒我们Agent 一旦接入工具和现实执行环境安全问题就不再只是“模型说错话”而可能变成“系统做错事”。Generative Agents 是另一个方向25 个由 LLM 控制的虚拟角色在沙盒环境中生活和互动形成类似 The Sims 的社会仿真。这个系统把记忆、反思、规划和行动结合起来让角色根据过去经历和当前环境做出行为。图 13 展示了 Generative Agents 的架构。Memory stream 记录角色经历Retrieval 根据相关性、近期性、重要性检索记忆Reflection 把过去事件合成为更高层推论Planning Reacting 则把这些信息转成具体行为。这个案例最有意思的地方在于它展示了 Agent 不只是“完成任务”还可以“维持行为连续性”。这种连续性对未来很多产品都很关键。一个 AI 助理如果今天完全不记得昨天的协作背景就很难成为真正的工作伙伴一个游戏 NPC 如果无法形成关系记忆就很难产生可信行为一个企业 Agent 如果不理解历史任务和组织流程就很难进入核心业务。AutoGPT 和 GPT-Engineer 代表的是早期通用 Agent Demo。它们展示了自然语言目标驱动工具链的可能性也暴露了大量格式解析、短期记忆、任务边界和用户澄清问题。尤其是 AutoGPT大量系统提示都围绕命令列表、JSON 输出、短期记忆限制、文件读写和自我批评展开。这说明早期 Agent 的工程重点并不神秘很多时候就是让模型输出可以被程序稳定解析让任务状态不至于丢失让工具调用不要越界。GPT-Engineer 的设计则强调需求澄清。它先让模型提出需要澄清的问题再进入代码生成模式。这个设计非常有现实意义Agent 不应该永远假装用户需求已经完整。很多真实软件工程任务的第一步不是写代码而是搞清楚目标、约束和验收标准。实验与证据结果能支撑到什么程度这篇文章不是一篇单一论文所以它的“证据”来自多个研究和系统案例而不是一个统一实验表。我们需要区分三类证据。第一类证据来自方法论文的实验结果。ReAct 在知识密集型任务和决策任务中优于去掉 Thought 的 Act-only 基线说明显式推理轨迹对环境交互有帮助。Reflexion 在 AlfWorld 和 HotpotQA 等任务上通过反思记忆提升表现说明失败轨迹可以在上下文层面转化为下一轮行动的约束。Algorithm Distillation 在需要记忆和探索的环境中接近 RL^2说明历史轨迹条件化可以让模型学到某种 in-context 改进过程。第二类证据来自系统案例。HuggingGPT、ChemCrow、Generative Agents 等案例说明把 LLM 和外部工具、记忆、规划系统结合可以产生超出单次问答的复杂行为。它们不是证明“Agent 已经可靠自主”而是证明“LLM 可以作为系统控制器组织多个模块协作”。第三类证据来自失败和限制。上下文长度有限、长程规划不稳、自然语言接口格式不可靠、工具参数容易错、专业领域评价困难这些都不是边缘问题而是 Agent 系统的核心瓶颈。某种意义上文章最有价值的部分恰恰是这些限制因为它们把 Agent 从幻想拉回工程现实。Rocky 认为这篇文章能支撑的结论是LLM Agent 作为系统范式是成立的但作为全自动可靠执行体还远未成熟。规划、记忆、工具、反思都能提升能力但每一项都引入新的误差来源。一个 Agent 系统如果没有评测、权限、日志、异常处理和人类介入机制很难在高风险任务中稳定落地。这篇工作的边界与可复现性这篇博客的边界也很清楚。首先它更像一个高质量技术综述而不是一个端到端系统实现。它把当时的重要方法和案例组织成 Agent 框架但没有提供一个统一的可复现实验环境。因此读者不能把它当成某个系统的性能证明而应该把它当成理解 Agent 架构的地图。其次文章讨论的大量方法处在 2023 年早期 Agent 浪潮中很多系统更接近 proof-of-concept。AutoGPT、GPT-Engineer 等项目展示了很强的想象力但也存在稳定性和工程边界问题。回看这些项目最重要的收获不是“早期 Demo 是否完美”而是它们把 Agent 需要解决的问题暴露得很充分任务拆解、工具协议、状态保存、格式解析、失败恢复、用户澄清。第三记忆和反思机制容易被过度解读。向量数据库不等于真正长期记忆自我反思不等于模型参数层面的持续学习。它们更像系统层面的状态增强和上下文增强。有效但有边界。第四工具使用带来的安全风险在原文里已经出现端倪。尤其是科学实验、药物合成、机器人 API、外部账户操作等场景Agent 的行动可能产生现实后果。越是接近真实执行越需要权限控制、沙箱、审计、人类确认和风险分类。如果继续研究/落地应该关注什么如果把这篇文章作为 Agent 研究和产品落地的起点后续最值得关注的不是“再包装一个 Agent 框架”而是五个更硬的问题。第一规划能力如何从自然语言列表走向可验证任务图。很多 Agent 失败是因为它只有“看起来像计划”的文本没有严格的依赖关系、状态约束、验收条件和失败回退。未来更可靠的 Agent应该把计划表示成可执行的 DAG、状态机或工作流而不是只保存在自由文本里。第二记忆系统如何从向量检索走向可信状态管理。Agent 需要的不只是相似内容还需要事实性、时效性、权限、来源、重要性、用户偏好和任务上下文。长期记忆如果没有清洗和治理很容易变成长期污染。第三工具调用如何从 Prompt 协议走向工程协议。真实业务系统需要类型检查、参数校验、权限控制、错误码、重试、回滚、审计日志和人类确认。Agent 的工具层越像严肃软件工程它越有机会进入生产。第四反思机制如何从语言总结走向可评测改进。模型说“我下次会改正”没有意义关键是下一次是否真的减少同类错误。因此 Agent 需要可量化的任务轨迹评测而不是只依赖模型自我评价。第五安全边界如何前置设计。Agent 不是普通聊天机器人它有行动能力。对于代码执行、网络访问、金融交易、实验操作、账户权限等场景安全策略必须成为系统架构的一部分而不是上线前补一个提示词。术语与概念速查概念本文中的含义Rocky 视角下的本质LLM Agent以大模型为核心控制器的智能体系统把语言模型放进任务闭环而不是只做单次回答Planning任务分解、路径搜索、计划生成和调整控制流设计决定复杂任务能否推进Chain of Thought让模型显式生成中间推理步骤把隐式推理转成可观察文本轨迹Tree of Thoughts同一步生成多条候选思路并搜索把推理链扩展成状态空间搜索ReActReasoning 和 Acting 交替循环Agent 的基础行动协议想、做、看、再想Reflexion把失败轨迹总结成反思并写入记忆上下文层面的失败经验压缩Memory短期上下文与长期外部存储Agent 的状态管理系统MIPS / ANN向量检索中的近似相似搜索长期记忆被重新接入当前决策的底层机制Tool Use调用搜索、计算、API、代码、模型等外部工具模型从语言空间进入操作空间的接口MRKLLLM 路由到专家模块的神经符号架构让模型做调度器而不是亲自做所有事API-Bank工具增强 LLM 的评测基准把工具调用拆成可评价的多个决策点Generative Agents多智能体社会仿真系统记忆、反思、规划共同产生行为连续性拓展思考值得继续扩展研究与思考的创新点这篇文章最值得延展的地方是它隐含地提出了一个 Agent 系统的“操作系统类比”。如果 LLM 是 CPU 或大脑那么规划是调度器记忆是状态和存储工具是外设和系统调用反思是错误诊断和反馈优化权限与安全则是内核边界。这个类比并不完美但它能帮助我们避免一个常见误区把 Agent 能力全部归因于模型本身。Rocky 认为未来真正有价值的 Agent 产品大概率不是最会喊“自主”的产品而是最懂系统边界的产品。它知道哪些任务可以自动完成哪些任务必须请求确认知道哪些记忆应该长期保存哪些信息必须过期知道什么时候应该调用工具什么时候应该停止知道失败之后如何收集证据而不是编造解释。从技术研究看Agent 的下一个关键问题会集中在可靠性和可验证性上。早期 Agent 追求“能不能做”下一阶段 Agent 必须回答“做得对不对、错了怎么知道、怎么恢复、谁来负责”。这会推动任务图、工具协议、评测基准、安全沙箱、人机协作界面成为核心基础设施。从产品落地看Agent 的价值也不是替代所有人而是进入具体工作流。客服、数据分析、代码开发、科研助理、运营自动化、知识管理、企业内部流程都不是只靠一个聊天框就能解决。真正能沉淀商业价值的 Agent需要理解业务上下文接入真实工具链并在低风险场景中逐步获得信任。从个人能力看这篇文章也给 AI 从业者一个很强的提醒未来的竞争不只是会不会调 Prompt而是能不能理解模型、检索、工具、数据、工作流和业务目标之间的关系。工具红利会退潮认知红利会留下。一个工程师如果只懂模型调用很容易被更强的基础模型吸收但如果能把模型组织进可执行系统就更接近 Agent 时代真正稀缺的能力。最后回到 Lilian Weng 这篇文章本身。它真正重要的地方不是预言了某一个产品而是把 Agent 从一个令人兴奋的概念拆成了可以研究、可以工程化、可以质疑的系统结构。今天再读它最应该记住的不是“Agent 很强”而是Agent 的本质是让模型在记忆、工具、规划和反馈构成的闭环里持续推进任务它的上限来自模型能力它的下限取决于系统工程。参考资料Lilian Weng. LLM Powered Autonomous Agents. Lil’Log, 2023.Wei et al. Chain of Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022.Yao et al. ReAct: Synergizing Reasoning and Acting in Language Models. ICLR 2023.Yao et al. Tree of Thoughts: Deliberate Problem Solving with Large Language Models. 2023.Shinn and Labash. Reflexion: an Autonomous Agent with Dynamic Memory and Self-Reflection. 2023.Shen et al. HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face. 2023.Li et al. API-Bank: A Benchmark for Tool-Augmented LLMs. 2023.Park et al. Generative Agents: Interactive Simulacra of Human Behavior. 2023.推荐阅读Rocky一直在运营技术交流群WeThinkIn-技术交流群这个群的初心主要聚焦于技术话题的讨论与学习包括但不限于算法开发竞赛科研以及工作求职等。群里有很多人工智能行业的大牛欢迎大家入群一起学习交流请添加小助手微信Jarvis8866拉你进群1. 深入浅出完整解析AI AgentAI智能体的核心基础知识2025年可以说是AI Agent全面落地应用的元年因此Rocky在持续撰写对AI Agent的全维度解析文章深入浅出完整解析AI AgentAI智能体的核心基础知识2. 深入浅出完整解析扩散模型DDPM、DDIM、Classifier/Classifier-Free Guidance、Rectified Flow核心基础知识和Rocky一起学习探究扩散模型的本质原理与和核心基础知识同时不断跟进扩散模型的最新发展。Rocky在本文中对扩散模型的本质做了全面系统的梳理与讲解深入浅出完整解析扩散模型DDPM、DDIM、SDE、Classifier/Classifier-Free Guidance、Rectified Flow核心基础知识3. 深入浅出完整解析FLUX.2、Seedream即梦、Z-image、GLM-Image核心基础知识https://zhuanlan.zhihu.com/p/19751746910491895624. 深入浅出完整解析FLUX.1 Kontext和FLUX.1 Krea核心基础知识深入浅出完整解析FLUX.1 Kontext和FLUX.1 Krea核心基础知识5. 深入浅出完整解析DeepSeek系列核心基础知识深入浅出完整解析DeepSeek系列核心基础知识6、Sora等AI视频大模型的核心原理核心基础知识网络结构经典应用场景从0到1搭建使用AI视频大模型从0到1训练自己的AI视频大模型AI视频大模型性能测评AI视频领域未来发展等全维度解析文章正式发布码字不易欢迎大家多多点赞Sora等AI视频大模型文章地址深入浅出完整解析Sora、Wan2.1、AnimateDiff、CogVideoX等AI视频大模型核心基础知识7、Stable Diffusion 3和FLUX.1核心原理核心基础知识网络结构从0到1搭建使用Stable Diffusion 3和FLUX.1进行AI绘画从0到1上手使用Stable Diffusion 3和FLUX.1训练自己的AI绘画模型Stable Diffusion 3和FLUX.1性能优化等全维度解析文章正式发布码字不易欢迎大家多多点赞Stable Diffusion 3和FLUX.1文章地址深入浅出完整解析Stable Diffusion 3SD 3和FLUX.1系列核心基础知识8、Stable Diffusion XL核心基础知识网络结构从0到1搭建使用Stable Diffusion XL进行AI绘画从0到1上手使用Stable Diffusion XL训练自己的AI绘画模型AI绘画领域的未来发展等全维度解析文章正式发布码字不易欢迎大家多多点赞Stable Diffusion XL文章地址深入浅出完整解析Stable Diffusion XLSDXL核心基础知识9、Stable Diffusion 1.x-2.x核心原理核心基础知识网络结构经典应用场景从0到1搭建使用Stable Diffusion进行AI绘画从0到1上手使用Stable Diffusion训练自己的AI绘画模型Stable Diffusion性能优化等全维度解析文章正式发布码字不易欢迎大家多多点赞Stable Diffusion文章地址深入浅出完整解析Stable DiffusionSD核心基础知识10、ControlNet核心基础知识核心网络结构从0到1使用ControlNet进行AI绘画从0到1训练自己的ControlNet模型从0到1上手构建ControlNet商业变现应用等全维度解析文章正式发布码字不易欢迎大家多多点赞ControlNet文章地址深入浅出完整解析ControlNet核心基础知识11、LoRA系列模型核心原理核心基础知识从0到1使用LoRA模型进行AI绘画从0到1上手训练自己的LoRA模型LoRA变体模型介绍优质LoRA推荐等全维度解析文章正式发布码字不易欢迎大家多多点赞LoRA文章地址深入浅出完整解析LoRALow-Rank Adaptation模型核心基础知识12、深入浅出完整解析AIGC时代Transformer核心基础知识在AIGC时代中Transformer为AI行业带来了深刻的变革。Transformer架构正在一步一步重构所有的AI技术方向成为AI技术架构大一统与多模态整合的关键核心基座大有一统“AI江湖”之势。Rocky也对Transformer模型进行持续的深入浅出梳理与解析Transformer文章地址深入浅出完整解析AIGC时代Transformer核心基础知识13、最全面的AIGC面经《手把手教你成为AIGC算法工程师斩获AIGC算法offer2024年版》文章正式发布码字不易欢迎大家多多点赞AIGC面经文章地址手把手教你成为AIGC算法工程师斩获AIGC算法offer14、50万字大汇总《“三年面试五年模拟”之算法工程师的求职面试“独孤九剑”秘籍》文章正式发布码字不易欢迎大家多多点赞算法工程师三年面试五年模拟文章地址https://zhuanlan.zhihu.com/p/545374303《三年面试五年模拟》github项目地址希望大家能多多starhttps://github.com/WeThinkIn/Interview-for-Algorithm-Engineer15、Stable Diffusion WebUI、ComfyUI、Fooocus三大主流AI绘画框架核心知识从0到1搭建AI绘画框架从0到1使用AI绘画框架的保姆级教程深入浅出介绍AI绘画框架的各模块功能深入浅出介绍AI绘画框架的高阶用法等全维度解析文章正式发布码字不易欢迎大家多多点赞AI绘画框架文章地址深入浅出完整解析主流AI绘画框架ComfyUI、Stable Diffusion WebUI、Fooocus核心基础知识16、GAN网络核心基础知识网络架构GAN经典变体模型经典应用场景GAN在AIGC时代的商业应用等全维度解析文章正式发布码字不易欢迎大家多多点赞GAN网络文章地址https://zhuanlan.zhihu.com/p/66315730617. AI算法工程师的《三年面试五年模拟》求职秘籍AIGC时代的算法工程师的求职面试秘籍持续更新中18. AIGC产业的深度思考与分析2023年3月21日微软创始人比尔·盖茨在其博客文章《The Age of AI has begun》中表示自从1980年首次看到图形用户界面graphical user interface以来以OpenAI为代表的科技公司发布的AIGC模型是他所见过的最具革命性的技术进步。Rocky也认为AIGC及其生态会成为AI行业重大变革的主导力量。AIGC会带来一个全新的红利期未来随着AIGC的全面落地和深度商用会深刻改变我们的工作、生活、学习以及交流方式各行各业都将被重新定义过程会非常有趣。那么在此基础上我们该如何更好的审视AIGC的未来我们该如何更好地拥抱AIGC引领的革新Rocky准备从技术、产品、商业模式、长期主义等维度持续分享一些个人的核心思考与观点希望能帮助各位读者对AIGC有一个全面的了解深入浅出全面解析AIGC时代核心价值与发展趋势2025年版
一篇读懂LLM Powered Autonomous Agents大模型智能体的系统本质原理
发布时间:2026/7/4 7:10:50
写在前面欢迎大家关注Rocky的公众号WeThinkIn欢迎大家关注Rocky的知乎Rocky DingAIGC算法工程师/开发工程师面试面经秘籍分享WeThinkIn/Interview-for-Algorithm-Engineer欢迎大家StarAIGC时代的《三年面试五年模拟》AI算法工程师/开发工程师求职面试秘籍独家资源【三年面试五年模拟】AI算法工程师面试秘籍Rocky最新撰写AI AgentAI智能体的深入浅出全维度解析文章深入浅出完整解析AI AgentAI智能体的核心基础知识AIGC算法岗/开发岗面试面经交流社群涵盖AI Agent、AIGC图像创作、AI视频、LLM大模型、AI多模态、数字人、传统深度学习、具身智能等AIGC面试干货资源欢迎大家加入https://t.zsxq.com/33pJ0大家好我是Rocky。核心导读Lilian Weng 这篇《LLM Powered Autonomous Agents》写于 2023 年 6 月是早期把大模型智能体讲清楚的一篇关键技术博客。它的价值不在于提出某个单点算法而在于给出了一个非常稳定的系统框架当 LLM 成为 Agent 的“大脑”之后真正决定系统能力上限的不只是模型参数本身而是围绕模型搭起来的规划、记忆和工具调用系统。Rocky 认为这篇文章到今天仍然值得反复读原因很简单它没有把 Agent 神化成“自动完成一切的数字员工”也没有把 Agent 降低成“Prompt 工程的小技巧集合”。它讨论的是一个更底层的问题如何把一个擅长语言建模的模型改造成一个能分解任务、保存状态、调用工具、观察反馈并迭代修正的执行系统。如果用一句话概括这篇文章的主线LLM Agent 的核心不是“模型会思考”而是“模型被放进了一个可执行、可记忆、可反馈的闭环里”。规划负责把目标拆成步骤记忆负责让系统不被当前上下文窗口困住工具负责把语言能力接到外部世界自我反思负责让失败轨迹变成下一轮行动的约束。所谓自主智能体实质上是大模型从“回答器”向“任务控制器”的跃迁。这也是本文希望进一步展开的判断Agent 不是一个模型形态而是一种系统组织方式。大模型只是中枢真正让它接近“能做事”的是控制流、状态管理、外部工具、环境反馈和安全边界共同构成的工程结构。理解这一点比追逐某一个 Agent 框架更重要。问题背景作者到底想解决什么在 ChatGPT 出现之后行业很快发现大模型的能力并不止于写文章、写代码、回答问题。它还能在自然语言空间中做任务分解、生成计划、解释中间状态甚至根据外部反馈调整下一步行动。AutoGPT、BabyAGI、GPT-Engineer 这类早期 Demo 就是在这个背景下出现的它们把用户目标交给模型让模型自己拆解任务、调用命令、写文件、搜索信息最后尝试交付一个结果。但早期 Agent Demo 的兴奋点和风险点其实是同一个东西它们让模型“看起来”像在自主行动却也暴露出模型在长程任务、状态保持、工具调用可靠性、格式稳定性上的脆弱。模型可以生成计划但计划未必可执行模型可以反思失败但反思未必真实有效模型可以调用工具但参数、接口、返回结果处理都可能出错。Lilian Weng 的文章想解决的不是“如何做一个更酷的 Demo”而是把这些现象拆成可分析的系统模块。她把 LLM-powered autonomous agent 分成三个关键组件Planning、Memory、Tool use。这个拆法非常重要因为它把“智能体”从一个模糊词汇变成了可以被工程化讨论的结构。图 1 是全文的骨架。LLM 位于系统中心但它不是孤立工作的。规划模块让它能把大目标拆成子目标记忆模块让它能跨越有限上下文保存信息工具模块让它能访问模型权重之外的知识、计算和外部系统。真正的 Agent 能力不是这三个模块的简单相加而是它们形成一个循环模型提出行动工具产生观察记忆保存轨迹规划更新下一步。这张图的本质含义是大模型智能体不是“一个更长 Prompt”而是一套围绕 LLM 的认知操作系统。Prompt 只是入口Agent 系统真正要处理的是任务生命周期。核心思路用一句主线串起来如果把这篇文章当作 Agent 的技术地图可以看到一条非常清晰的递进关系。第一层是规划。没有规划模型只能在当前问题上生成一个局部答案有了规划模型才可能把复杂目标拆成多个可执行步骤。Chain of Thought、Tree of Thoughts、LLMP、ReAct、Reflexion 等方法本质上都在回答同一个问题如何让模型在行动之前、行动之中、行动之后形成更好的决策轨迹。第二层是记忆。没有记忆智能体会被 Transformer 的上下文窗口限制在一次对话里有了短期记忆和长期记忆系统才可能把历史经验、外部知识、用户偏好和任务状态重新带回当前决策。这里的关键不是“把所有东西都塞进上下文”而是如何用检索和表示机制在需要的时候找到真正相关的信息。第三层是工具。没有工具LLM 只能在参数化知识和当前上下文中工作有了工具模型才可以连接搜索、计算器、代码解释器、数据库、API、机器人实验平台、图像/音频/视频模型等外部能力。工具让模型从“语言空间”进入“操作空间”。第四层是案例与边界。ChemCrow、Generative Agents、AutoGPT、GPT-Engineer 等例子说明Agent 可以在科研、仿真、软件工程中产生新能力但也暴露出可靠性、安全性、长程规划和自然语言接口不稳定等问题。Rocky 认为这条主线背后有一个更底层的判断Agent 的能力不是来自“模型突然有了自我”而是来自系统把模型的语言推理能力转化成了可循环执行的过程。这也是为什么 Agent 不是单纯的模型 Benchmark 问题而是模型、检索、工具、环境、反馈和工程约束共同作用的问题。方法展开沿着原文逻辑拆解规划让模型从“回答问题”变成“推进任务”复杂任务通常不是一步完成的。写一段代码、完成一次调研、规划一次旅行、设计一个实验都需要把大目标拆成小目标并在执行过程中根据新信息调整路径。规划模块解决的正是这个问题。原文首先讨论的是 Chain of Thought。CoT 的核心做法很简单让模型“think step by step”用更多测试时计算把复杂问题拆成中间步骤。它的价值不只是提高答案准确率更重要的是让模型的中间推理过程以自然语言形式显性化。对于 Agent 来说这种显性化非常关键因为只有当中间步骤可以被看见、保存和检查后续的反思、纠错和工具调用才有入口。但 CoT 的局限也很明显它通常是一条线性的推理链。一旦前面的中间步骤偏掉后面可能会沿着错误方向继续扩展。Tree of Thoughts 试图解决这个问题它不是只生成一条思路而是在每个思考步骤上生成多个候选并用 BFS、DFS 或投票/评估器去搜索更好的路径。换句话说ToT 把大模型推理从“单路径生成”推向“搜索式决策”。这背后的本质变化是模型不再只是输出一个答案而是在构造一个可搜索的状态空间。一旦推理被看成状态空间Agent 就可以引入评估器、剪枝、回溯、外部规划器等传统 AI 和工程系统里的方法。LLMP 则更进一步把长程规划交给外部经典规划器。LLM 负责把自然语言问题翻译成 PDDL经典规划器负责生成计划再由 LLM 翻译回自然语言。这种路径很有启发在某些结构化场景里LLM 不一定要自己完成所有规划而可以作为自然语言和符号系统之间的接口。Rocky 认为LLMP 的意义不在于 PDDL 本身会成为所有 Agent 的标准而在于它提醒我们优秀的 Agent 系统不应该迷信“模型单独解决一切”。当外部规划器、优化器、数据库、规则系统更擅长某件事时LLM 更适合做语义理解、任务转译、结果解释和流程调度。自我反思把失败轨迹变成下一轮行动的约束如果说任务分解解决的是“下一步该做什么”自我反思解决的就是“做错之后如何变好”。现实任务充满试错Agent 不可能每一步都正确。关键不在于消灭失败而在于系统能不能识别失败、解释失败并把失败经验压缩成下一轮行动的上下文。ReAct 是这条路线的代表。它把 Reasoning 和 Acting 放在同一个循环里让模型交替生成 Thought、Action、Observation。Thought 是模型的中间推理Action 是对外部环境或工具的调用Observation 是环境返回的新信息。这样一来模型不是一次性生成答案而是在“想一想、做一步、看结果、再想一想”的循环中推进任务。图 2 展示了 ReAct 在知识密集型任务和决策任务中的轨迹。真正值得注意的是它把模型的语言推理和环境交互合在了一起。纯 Act-only 系统只能执行动作缺少可解释的中间推理纯 CoT 系统只有思考缺少环境反馈。ReAct 的价值在于把“思考”和“行动”组织成一个闭环。从工程角度看ReAct 的关键不只是 Prompt 模板而是状态机设计。Thought、Action、Observation 本质上是 Agent 的循环协议模型提出假设工具验证假设系统把验证结果重新交给模型。这也是为什么后来很多 Agent 框架虽然名称不同但底层循环仍然长得很像。Reflexion 在 ReAct 基础上加入了动态记忆和自我反思。它把任务看成一种强化学习式环境Agent 执行动作环境返回观察和奖励如果轨迹低效或出现幻觉系统可以停止当前尝试让模型生成反思并把反思写入工作记忆指导下一次尝试。图 3 的重点在于“反思不是一句口号”而是一种可以被写入记忆的中间对象。失败轨迹经过模型总结变成对未来行动有约束力的语言反馈。这使得 Agent 可以在不更新模型参数的情况下通过上下文中的经验积累改善后续表现。图 4 展示了 Reflexion 的实验结果也暴露出一个很重要的事实在环境交互任务里幻觉往往比“规划太慢”更常见。Agent 的失败不只是算力不够、步骤不够多而是模型可能在重复无效动作、误读观察、编造状态。自我反思机制可以缓解这类问题但它的效果依赖于系统能否可靠地检测失败轨迹。这里有一个很容易被忽略的边界自我反思并不等于真实学习。Reflexion 更多是在上下文层面让模型“记住这次失败的教训”它没有改变模型参数。它可以提升单任务或同类任务中的迭代表现但不能保证模型从根本上获得稳定的新能力。Rocky 认为理解这个边界非常重要否则很容易把 Agent 的上下文技巧误读成模型已经具备长期自主学习能力。Chain of Hindsight 则从训练角度讨论反思能力。它把人类反馈组织成一串逐步改进的输出让模型学习“看见历史反馈之后生成更好答案”的趋势。原文中的数据形式可以概括为给定 promptx xx、多个输出y i y_iyi、评分r i r_iri和反馈z i z_izi模型被训练在历史反馈序列条件下预测更高质量的最终输出y n y_nyn。图 5 说明了 CoH 的核心直觉模型不是只学习“正确答案长什么样”而是学习“输出如何沿着反馈变好”。这对 Agent 很重要因为 Agent 的行动通常不是一次生成完成而是在多轮观察和修正中逐渐接近目标。Algorithm Distillation 把类似思想放到强化学习轨迹里。它不只是蒸馏某个专家策略而是蒸馏“一个算法如何在多轮 episode 中变好”的过程。也就是说模型条件化在历史轨迹上学习下一步如何产生更好表现。图 6 很适合用来理解 Agent 的“经验压缩”问题。传统监督学习通常学的是输入到输出的映射而 AD 想学的是跨 episode 的改进过程。对 Agent 来说这意味着历史轨迹不是垃圾日志而是下一轮策略的重要条件。图 7 展示了 AD 在需要记忆和探索的环境中接近 RL^2 的表现同时比一些基线更快学习。需要注意的是原文也强调了上下文窗口的限制要让模型从多 episode 历史中学到东西上下文必须足够长episode 也必须足够短。这个限制在今天仍然非常现实。长上下文可以缓解问题但不能自动解决历史选择、压缩、检索和信用分配问题。因此规划模块真正带来的启发是Agent 的“智能”很大一部分来自过程组织。CoT、ToT、ReAct、Reflexion、CoH、AD 看起来方法不同但都在尝试把模型输出从一次性文本生成变成可拆解、可搜索、可反馈、可积累的行动过程。记忆有限上下文之外的状态管理Agent 要执行长任务就必须面对记忆问题。Transformer 的上下文窗口再长也不是无限的更重要的是任务中的所有历史信息并不都同等重要。真正的挑战不是“存下所有内容”而是“在当前决策时找回最相关的内容”。原文先借用人类记忆的分类区分感觉记忆、短期记忆、长期记忆。这个类比不是神经科学意义上的严格等价而是帮助我们理解 Agent 系统中的不同信息层级。图 8 对 Agent 设计很有启发。感觉记忆可以粗略对应原始输入的表示学习短期记忆对应当前上下文中的 in-context learning长期记忆对应外部向量数据库或其他可检索存储。也就是说Agent 的记忆并不只是一个“聊天记录”而是由表示、上下文、检索、排序、压缩共同构成的系统。Rocky 认为很多 Agent 项目失败不是因为没有接向量数据库而是因为把“存储”误当成了“记忆”。真正的记忆至少包含四个步骤写入什么、如何表示、何时检索、检索后如何影响决策。只把所有历史切块后塞进向量库往往会制造一种“看起来有长期记忆”的幻觉但在关键任务上并不能稳定帮助模型。原文讨论的 MIPS就是外部记忆工程化的底层问题。向量数据库通常把信息编码成 embedding然后在查询时做最大内积搜索或近似最近邻搜索。为了速度系统往往使用 ANN在少量准确率损失和大幅检索加速之间做权衡。图 9 比较了不同 MIPS 算法在 recall10 上的表现。LSH、ANNOY、HNSW、FAISS、ScaNN 等方法的差异表面上是检索算法差异背后其实是 Agent 记忆系统的工程取舍你是更在意召回准确率还是更在意响应速度是数据规模更大还是更新频率更高是语义相似就够了还是还要时间、来源、权限、重要性一起排序这也是为什么长期记忆不能被简单理解为“无限上下文”。向量检索提供的是相关信息的候选集而不是完整注意力。被检索出来的信息可能不完整、不新鲜、不可信也可能因为 embedding 表示偏差而遗漏关键线索。原文在挑战部分也提到检索可以扩展知识池但它的表示能力不等同于完整 attention。所以记忆模块的本质是状态管理。短期记忆负责当前任务上下文长期记忆负责跨任务和跨时间的信息沉淀检索机制负责把长期状态重新接入当前推理。好的 Agent 系统必须把记忆当成产品和工程问题一起设计哪些信息值得存哪些信息应该过期哪些信息具有权限边界哪些信息是事实哪些只是模型过去的猜测工具使用把语言模型接入外部世界如果没有工具LLM 再强也只能在已有参数和输入上下文里工作。工具使用让模型获得三类关键能力访问最新或私有信息执行精确计算和代码调用外部系统完成真实操作。原文用工具使用的类比引出这个模块人类使用工具来突破身体和认知限制。对 LLM 来说工具也是能力外延。搜索引擎弥补知识时效计算器弥补算术稳定性代码解释器弥补复杂执行数据库弥补私有信息访问行业 API 则把模型接入真实业务流程。图 10 的作用不是提供技术架构而是提醒我们工具使用是智能系统扩展能力边界的基本方式。Agent 的工具调用不应该被看成“让模型多几个插件”而应该被看成模型与外部世界之间的执行接口。MRKL 是较早把这种思想结构化的系统。它把通用 LLM 作为路由器把问题分发给一组专家模块。这些专家可以是神经网络模型也可以是符号工具比如计算器、汇率转换器、天气 API。MRKL 的关键判断是LLM 未必适合亲自完成所有子任务但可以负责识别问题类型、选择模块、组织输出。这里的难点并不在工具本身。计算器本来就比 LLM 更擅长算术数据库本来就比 LLM 更擅长存储事实。难点在于模型是否知道什么时候该用工具、该用哪个工具、该如何构造参数、如何解释工具返回。原文提到MRKL 在数学问题上发现显式算式比口头数学题更容易处理因为模型可能抽取不出正确参数。这是一个非常现实的提醒工具越强调用协议越重要。Toolformer、TALM 等方法试图通过训练让语言模型学会使用 API。它们的思路是判断新增 API 调用标注是否能改善模型输出然后用这些标注扩充训练数据。与纯 Prompt 式工具调用相比训练式工具使用更接近把“何时调用、如何调用”的能力内化到模型中。HuggingGPT 展示了更复杂的工具生态它把 ChatGPT 当作任务规划器根据 Hugging Face 上的模型描述选择合适模型执行子任务再汇总结果返回用户。图 11 展示了 HuggingGPT 的四阶段流程任务规划、模型选择、任务执行、结果生成。它的启发在于Agent 可以不只调用传统 API还可以调用其他 AI 模型。LLM 在这里像一个调度器负责把用户需求拆成多个任务再把任务分配给图像、语音、视频、文本等不同专家模型。但这套流程也暴露出真实系统的成本多轮 LLM 推理会带来延迟复杂任务内容会消耗上下文窗口外部模型服务会引入稳定性问题模型输出格式一旦不稳整个链路就可能失败。也就是说工具使用让 Agent 能力边界变大同时也让工程可靠性问题变得更尖锐。API-Bank 则把工具调用能力变成了可评测问题。它包含多种常用 API、完整的工具增强 LLM 工作流和带 API 调用标注的对话。它不仅评估模型能不能调用一个给定 API还评估模型能不能检索到合适 API以及在模糊用户需求下规划多个 API 调用。图 12 的价值在于它把“工具调用”拆成多个决策点是否需要 API、该调用哪个 API、参数是否正确、结果是否满足需求、是否需要再次调用。每一步都可能出错也都可以被单独评测。Rocky 认为工具调用是 Agent 从 Demo 走向生产的分水岭。演示一个 Agent 会调用搜索很容易构建一个在真实业务里稳定调用 API、处理异常、遵守权限、记录审计、可回滚的 Agent 则完全不同。真正的产品级 Agent必须把工具调用当作工程协议而不是一段自然语言魔法。案例从科研工具到生成式社会仿真原文的案例部分非常重要因为它让前面的模块从抽象结构落到具体系统里。ChemCrow 是科研场景里的代表。它把 LLM 和 13 个化学专家工具结合起来处理有机合成、药物发现、材料设计等任务。这个系统延续了 ReAct 和 MRKL 的思路模型根据任务选择工具在工具观察结果基础上继续推理。ChemCrow 的一个关键观察是LLM 作为评价器可能无法可靠判断深度专业领域里的答案质量。原文提到在 LLM-based evaluation 看起来 GPT-4 和 ChemCrow 接近但专家人工评估更关注完成度和化学正确性结果显示 ChemCrow 明显优于 GPT-4。这说明在专业领域里Agent 的价值往往不只是“回答更像”而是能不能把专业工具、约束和验证过程接入系统。Boiko 等人的科学发现 Agent 则进一步讨论了风险边界。它可以浏览互联网、阅读文档、执行代码、调用机器人实验 API也可以在药物发现等任务中产生实验计划。但当任务涉及已知化学武器或危险合成路径时系统可能出现安全风险。这个案例提醒我们Agent 一旦接入工具和现实执行环境安全问题就不再只是“模型说错话”而可能变成“系统做错事”。Generative Agents 是另一个方向25 个由 LLM 控制的虚拟角色在沙盒环境中生活和互动形成类似 The Sims 的社会仿真。这个系统把记忆、反思、规划和行动结合起来让角色根据过去经历和当前环境做出行为。图 13 展示了 Generative Agents 的架构。Memory stream 记录角色经历Retrieval 根据相关性、近期性、重要性检索记忆Reflection 把过去事件合成为更高层推论Planning Reacting 则把这些信息转成具体行为。这个案例最有意思的地方在于它展示了 Agent 不只是“完成任务”还可以“维持行为连续性”。这种连续性对未来很多产品都很关键。一个 AI 助理如果今天完全不记得昨天的协作背景就很难成为真正的工作伙伴一个游戏 NPC 如果无法形成关系记忆就很难产生可信行为一个企业 Agent 如果不理解历史任务和组织流程就很难进入核心业务。AutoGPT 和 GPT-Engineer 代表的是早期通用 Agent Demo。它们展示了自然语言目标驱动工具链的可能性也暴露了大量格式解析、短期记忆、任务边界和用户澄清问题。尤其是 AutoGPT大量系统提示都围绕命令列表、JSON 输出、短期记忆限制、文件读写和自我批评展开。这说明早期 Agent 的工程重点并不神秘很多时候就是让模型输出可以被程序稳定解析让任务状态不至于丢失让工具调用不要越界。GPT-Engineer 的设计则强调需求澄清。它先让模型提出需要澄清的问题再进入代码生成模式。这个设计非常有现实意义Agent 不应该永远假装用户需求已经完整。很多真实软件工程任务的第一步不是写代码而是搞清楚目标、约束和验收标准。实验与证据结果能支撑到什么程度这篇文章不是一篇单一论文所以它的“证据”来自多个研究和系统案例而不是一个统一实验表。我们需要区分三类证据。第一类证据来自方法论文的实验结果。ReAct 在知识密集型任务和决策任务中优于去掉 Thought 的 Act-only 基线说明显式推理轨迹对环境交互有帮助。Reflexion 在 AlfWorld 和 HotpotQA 等任务上通过反思记忆提升表现说明失败轨迹可以在上下文层面转化为下一轮行动的约束。Algorithm Distillation 在需要记忆和探索的环境中接近 RL^2说明历史轨迹条件化可以让模型学到某种 in-context 改进过程。第二类证据来自系统案例。HuggingGPT、ChemCrow、Generative Agents 等案例说明把 LLM 和外部工具、记忆、规划系统结合可以产生超出单次问答的复杂行为。它们不是证明“Agent 已经可靠自主”而是证明“LLM 可以作为系统控制器组织多个模块协作”。第三类证据来自失败和限制。上下文长度有限、长程规划不稳、自然语言接口格式不可靠、工具参数容易错、专业领域评价困难这些都不是边缘问题而是 Agent 系统的核心瓶颈。某种意义上文章最有价值的部分恰恰是这些限制因为它们把 Agent 从幻想拉回工程现实。Rocky 认为这篇文章能支撑的结论是LLM Agent 作为系统范式是成立的但作为全自动可靠执行体还远未成熟。规划、记忆、工具、反思都能提升能力但每一项都引入新的误差来源。一个 Agent 系统如果没有评测、权限、日志、异常处理和人类介入机制很难在高风险任务中稳定落地。这篇工作的边界与可复现性这篇博客的边界也很清楚。首先它更像一个高质量技术综述而不是一个端到端系统实现。它把当时的重要方法和案例组织成 Agent 框架但没有提供一个统一的可复现实验环境。因此读者不能把它当成某个系统的性能证明而应该把它当成理解 Agent 架构的地图。其次文章讨论的大量方法处在 2023 年早期 Agent 浪潮中很多系统更接近 proof-of-concept。AutoGPT、GPT-Engineer 等项目展示了很强的想象力但也存在稳定性和工程边界问题。回看这些项目最重要的收获不是“早期 Demo 是否完美”而是它们把 Agent 需要解决的问题暴露得很充分任务拆解、工具协议、状态保存、格式解析、失败恢复、用户澄清。第三记忆和反思机制容易被过度解读。向量数据库不等于真正长期记忆自我反思不等于模型参数层面的持续学习。它们更像系统层面的状态增强和上下文增强。有效但有边界。第四工具使用带来的安全风险在原文里已经出现端倪。尤其是科学实验、药物合成、机器人 API、外部账户操作等场景Agent 的行动可能产生现实后果。越是接近真实执行越需要权限控制、沙箱、审计、人类确认和风险分类。如果继续研究/落地应该关注什么如果把这篇文章作为 Agent 研究和产品落地的起点后续最值得关注的不是“再包装一个 Agent 框架”而是五个更硬的问题。第一规划能力如何从自然语言列表走向可验证任务图。很多 Agent 失败是因为它只有“看起来像计划”的文本没有严格的依赖关系、状态约束、验收条件和失败回退。未来更可靠的 Agent应该把计划表示成可执行的 DAG、状态机或工作流而不是只保存在自由文本里。第二记忆系统如何从向量检索走向可信状态管理。Agent 需要的不只是相似内容还需要事实性、时效性、权限、来源、重要性、用户偏好和任务上下文。长期记忆如果没有清洗和治理很容易变成长期污染。第三工具调用如何从 Prompt 协议走向工程协议。真实业务系统需要类型检查、参数校验、权限控制、错误码、重试、回滚、审计日志和人类确认。Agent 的工具层越像严肃软件工程它越有机会进入生产。第四反思机制如何从语言总结走向可评测改进。模型说“我下次会改正”没有意义关键是下一次是否真的减少同类错误。因此 Agent 需要可量化的任务轨迹评测而不是只依赖模型自我评价。第五安全边界如何前置设计。Agent 不是普通聊天机器人它有行动能力。对于代码执行、网络访问、金融交易、实验操作、账户权限等场景安全策略必须成为系统架构的一部分而不是上线前补一个提示词。术语与概念速查概念本文中的含义Rocky 视角下的本质LLM Agent以大模型为核心控制器的智能体系统把语言模型放进任务闭环而不是只做单次回答Planning任务分解、路径搜索、计划生成和调整控制流设计决定复杂任务能否推进Chain of Thought让模型显式生成中间推理步骤把隐式推理转成可观察文本轨迹Tree of Thoughts同一步生成多条候选思路并搜索把推理链扩展成状态空间搜索ReActReasoning 和 Acting 交替循环Agent 的基础行动协议想、做、看、再想Reflexion把失败轨迹总结成反思并写入记忆上下文层面的失败经验压缩Memory短期上下文与长期外部存储Agent 的状态管理系统MIPS / ANN向量检索中的近似相似搜索长期记忆被重新接入当前决策的底层机制Tool Use调用搜索、计算、API、代码、模型等外部工具模型从语言空间进入操作空间的接口MRKLLLM 路由到专家模块的神经符号架构让模型做调度器而不是亲自做所有事API-Bank工具增强 LLM 的评测基准把工具调用拆成可评价的多个决策点Generative Agents多智能体社会仿真系统记忆、反思、规划共同产生行为连续性拓展思考值得继续扩展研究与思考的创新点这篇文章最值得延展的地方是它隐含地提出了一个 Agent 系统的“操作系统类比”。如果 LLM 是 CPU 或大脑那么规划是调度器记忆是状态和存储工具是外设和系统调用反思是错误诊断和反馈优化权限与安全则是内核边界。这个类比并不完美但它能帮助我们避免一个常见误区把 Agent 能力全部归因于模型本身。Rocky 认为未来真正有价值的 Agent 产品大概率不是最会喊“自主”的产品而是最懂系统边界的产品。它知道哪些任务可以自动完成哪些任务必须请求确认知道哪些记忆应该长期保存哪些信息必须过期知道什么时候应该调用工具什么时候应该停止知道失败之后如何收集证据而不是编造解释。从技术研究看Agent 的下一个关键问题会集中在可靠性和可验证性上。早期 Agent 追求“能不能做”下一阶段 Agent 必须回答“做得对不对、错了怎么知道、怎么恢复、谁来负责”。这会推动任务图、工具协议、评测基准、安全沙箱、人机协作界面成为核心基础设施。从产品落地看Agent 的价值也不是替代所有人而是进入具体工作流。客服、数据分析、代码开发、科研助理、运营自动化、知识管理、企业内部流程都不是只靠一个聊天框就能解决。真正能沉淀商业价值的 Agent需要理解业务上下文接入真实工具链并在低风险场景中逐步获得信任。从个人能力看这篇文章也给 AI 从业者一个很强的提醒未来的竞争不只是会不会调 Prompt而是能不能理解模型、检索、工具、数据、工作流和业务目标之间的关系。工具红利会退潮认知红利会留下。一个工程师如果只懂模型调用很容易被更强的基础模型吸收但如果能把模型组织进可执行系统就更接近 Agent 时代真正稀缺的能力。最后回到 Lilian Weng 这篇文章本身。它真正重要的地方不是预言了某一个产品而是把 Agent 从一个令人兴奋的概念拆成了可以研究、可以工程化、可以质疑的系统结构。今天再读它最应该记住的不是“Agent 很强”而是Agent 的本质是让模型在记忆、工具、规划和反馈构成的闭环里持续推进任务它的上限来自模型能力它的下限取决于系统工程。参考资料Lilian Weng. LLM Powered Autonomous Agents. Lil’Log, 2023.Wei et al. Chain of Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022.Yao et al. ReAct: Synergizing Reasoning and Acting in Language Models. ICLR 2023.Yao et al. Tree of Thoughts: Deliberate Problem Solving with Large Language Models. 2023.Shinn and Labash. Reflexion: an Autonomous Agent with Dynamic Memory and Self-Reflection. 2023.Shen et al. HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face. 2023.Li et al. API-Bank: A Benchmark for Tool-Augmented LLMs. 2023.Park et al. Generative Agents: Interactive Simulacra of Human Behavior. 2023.推荐阅读Rocky一直在运营技术交流群WeThinkIn-技术交流群这个群的初心主要聚焦于技术话题的讨论与学习包括但不限于算法开发竞赛科研以及工作求职等。群里有很多人工智能行业的大牛欢迎大家入群一起学习交流请添加小助手微信Jarvis8866拉你进群1. 深入浅出完整解析AI AgentAI智能体的核心基础知识2025年可以说是AI Agent全面落地应用的元年因此Rocky在持续撰写对AI Agent的全维度解析文章深入浅出完整解析AI AgentAI智能体的核心基础知识2. 深入浅出完整解析扩散模型DDPM、DDIM、Classifier/Classifier-Free Guidance、Rectified Flow核心基础知识和Rocky一起学习探究扩散模型的本质原理与和核心基础知识同时不断跟进扩散模型的最新发展。Rocky在本文中对扩散模型的本质做了全面系统的梳理与讲解深入浅出完整解析扩散模型DDPM、DDIM、SDE、Classifier/Classifier-Free Guidance、Rectified Flow核心基础知识3. 深入浅出完整解析FLUX.2、Seedream即梦、Z-image、GLM-Image核心基础知识https://zhuanlan.zhihu.com/p/19751746910491895624. 深入浅出完整解析FLUX.1 Kontext和FLUX.1 Krea核心基础知识深入浅出完整解析FLUX.1 Kontext和FLUX.1 Krea核心基础知识5. 深入浅出完整解析DeepSeek系列核心基础知识深入浅出完整解析DeepSeek系列核心基础知识6、Sora等AI视频大模型的核心原理核心基础知识网络结构经典应用场景从0到1搭建使用AI视频大模型从0到1训练自己的AI视频大模型AI视频大模型性能测评AI视频领域未来发展等全维度解析文章正式发布码字不易欢迎大家多多点赞Sora等AI视频大模型文章地址深入浅出完整解析Sora、Wan2.1、AnimateDiff、CogVideoX等AI视频大模型核心基础知识7、Stable Diffusion 3和FLUX.1核心原理核心基础知识网络结构从0到1搭建使用Stable Diffusion 3和FLUX.1进行AI绘画从0到1上手使用Stable Diffusion 3和FLUX.1训练自己的AI绘画模型Stable Diffusion 3和FLUX.1性能优化等全维度解析文章正式发布码字不易欢迎大家多多点赞Stable Diffusion 3和FLUX.1文章地址深入浅出完整解析Stable Diffusion 3SD 3和FLUX.1系列核心基础知识8、Stable Diffusion XL核心基础知识网络结构从0到1搭建使用Stable Diffusion XL进行AI绘画从0到1上手使用Stable Diffusion XL训练自己的AI绘画模型AI绘画领域的未来发展等全维度解析文章正式发布码字不易欢迎大家多多点赞Stable Diffusion XL文章地址深入浅出完整解析Stable Diffusion XLSDXL核心基础知识9、Stable Diffusion 1.x-2.x核心原理核心基础知识网络结构经典应用场景从0到1搭建使用Stable Diffusion进行AI绘画从0到1上手使用Stable Diffusion训练自己的AI绘画模型Stable Diffusion性能优化等全维度解析文章正式发布码字不易欢迎大家多多点赞Stable Diffusion文章地址深入浅出完整解析Stable DiffusionSD核心基础知识10、ControlNet核心基础知识核心网络结构从0到1使用ControlNet进行AI绘画从0到1训练自己的ControlNet模型从0到1上手构建ControlNet商业变现应用等全维度解析文章正式发布码字不易欢迎大家多多点赞ControlNet文章地址深入浅出完整解析ControlNet核心基础知识11、LoRA系列模型核心原理核心基础知识从0到1使用LoRA模型进行AI绘画从0到1上手训练自己的LoRA模型LoRA变体模型介绍优质LoRA推荐等全维度解析文章正式发布码字不易欢迎大家多多点赞LoRA文章地址深入浅出完整解析LoRALow-Rank Adaptation模型核心基础知识12、深入浅出完整解析AIGC时代Transformer核心基础知识在AIGC时代中Transformer为AI行业带来了深刻的变革。Transformer架构正在一步一步重构所有的AI技术方向成为AI技术架构大一统与多模态整合的关键核心基座大有一统“AI江湖”之势。Rocky也对Transformer模型进行持续的深入浅出梳理与解析Transformer文章地址深入浅出完整解析AIGC时代Transformer核心基础知识13、最全面的AIGC面经《手把手教你成为AIGC算法工程师斩获AIGC算法offer2024年版》文章正式发布码字不易欢迎大家多多点赞AIGC面经文章地址手把手教你成为AIGC算法工程师斩获AIGC算法offer14、50万字大汇总《“三年面试五年模拟”之算法工程师的求职面试“独孤九剑”秘籍》文章正式发布码字不易欢迎大家多多点赞算法工程师三年面试五年模拟文章地址https://zhuanlan.zhihu.com/p/545374303《三年面试五年模拟》github项目地址希望大家能多多starhttps://github.com/WeThinkIn/Interview-for-Algorithm-Engineer15、Stable Diffusion WebUI、ComfyUI、Fooocus三大主流AI绘画框架核心知识从0到1搭建AI绘画框架从0到1使用AI绘画框架的保姆级教程深入浅出介绍AI绘画框架的各模块功能深入浅出介绍AI绘画框架的高阶用法等全维度解析文章正式发布码字不易欢迎大家多多点赞AI绘画框架文章地址深入浅出完整解析主流AI绘画框架ComfyUI、Stable Diffusion WebUI、Fooocus核心基础知识16、GAN网络核心基础知识网络架构GAN经典变体模型经典应用场景GAN在AIGC时代的商业应用等全维度解析文章正式发布码字不易欢迎大家多多点赞GAN网络文章地址https://zhuanlan.zhihu.com/p/66315730617. AI算法工程师的《三年面试五年模拟》求职秘籍AIGC时代的算法工程师的求职面试秘籍持续更新中18. AIGC产业的深度思考与分析2023年3月21日微软创始人比尔·盖茨在其博客文章《The Age of AI has begun》中表示自从1980年首次看到图形用户界面graphical user interface以来以OpenAI为代表的科技公司发布的AIGC模型是他所见过的最具革命性的技术进步。Rocky也认为AIGC及其生态会成为AI行业重大变革的主导力量。AIGC会带来一个全新的红利期未来随着AIGC的全面落地和深度商用会深刻改变我们的工作、生活、学习以及交流方式各行各业都将被重新定义过程会非常有趣。那么在此基础上我们该如何更好的审视AIGC的未来我们该如何更好地拥抱AIGC引领的革新Rocky准备从技术、产品、商业模式、长期主义等维度持续分享一些个人的核心思考与观点希望能帮助各位读者对AIGC有一个全面的了解深入浅出全面解析AIGC时代核心价值与发展趋势2025年版