Agent 技术演化史从逻辑推理到语言驱动的七十年图 1左→右三时代视觉概览逻辑树规则受限→ 游戏/棋盘环境受限→ 多屏操控通用数字世界文章目录Agent 技术演化史从逻辑推理到语言驱动的七十年1. 什么是 Agent一个跨越七十年的定义Memory广义记忆Autonomy自主性2. 第一个时代逻辑 Agent1950s—1990s3. 第二个时代神经 Agent2000s—2020被忽视的暗线Semantic Parsing4. 第三个时代Language Agent2022—至今关键里程碑时间线5. OpenClaw MomentAgent 的 ChatGPT 时刻中美反应差异与应用层机会6. 走向 Universal Digital Agent边界消弭与语言的根本性语言范式会被颠覆吗7. 当前局限Agent 还不能做什么8. 实战路径读完这篇你可以做什么总结参考与延伸阅读摘要从 1950 年代专家系统到 2026 年 OpenClaw MomentAgent 技术经历了三次范式跃迁。本文基于苏煜教授的技术史梳理拆解 Agent 的核心框架、关键转折点和未来走向。2026 年你打开 Claude Code描述一个跨三个文件的重构需求。它读上下文、改代码、跑测试、修掉新引入的 regression、提交 PR。你审了一遍 diffapprove合入。对比两年前这类工作的大部分编码时间被 Agent 接管了。人的角色正在从实现者向审核者和决策者迁移。为什么是这两年突然爆发的底下积累了什么当前的边界又在哪里大多数人对这些问题的认知是断裂的——只看到了 ChatGPT 之后的现象不清楚七十年来到底发生了几次范式跃迁、每次跃迁解决了什么问题。2026 年初俄亥俄州立大学计算机系教授、Neo Cognition 创始人苏煜在一次深度访谈中张小珺《商业访谈录》第 139 期从 1950 年代讲到当下完整梳理了 Agent 的技术演化脉络。苏煜的研究组做出了 Mind2Web基于 LLM 的早期通用 Web Agent面向任意网站而非受限环境2023、SeeAct/UGround视觉驱动的 Computer Use Agent2024等开创性工作也是多模态 benchmark MMMU 的核心指导教师2025 年斯隆研究奖得主。他是少数从 Semantic Parsing 时代一路参与到 Language Agent 爆发的学者。这篇文章从那个访谈中提取技术脉络按是什么 → 怎么演变的 → 对你意味着什么的逻辑重新组织。1. 什么是 Agent一个跨越七十年的定义图 2Agent 分析框架——左侧 Memory 三层语义/情景/程序右侧 Autonomy 四环感知→推理→决策→行动中间是 Agent 实体底部是外部环境Agent 的定义争论了几十年。苏煜在访谈中给出的定义有三个要素有界实体Entity with boundary——它是一个独立个体不是发散的抽象概念环境中工作——必须存在于某种外部环境中目的性活动Goal-directed activities——带有目的地行动而非随机游荡按这个定义所有动物都是 Agent人是有最先进智能的 Agent。AI 从一开始追求的就是造一个人工的 Agent。苏煜在访谈中特别提到Russell 和 Norvig 的经典教材《Artificial Intelligence: A Modern Approach》1995 年第一版本质上就是一本关于 Agent 的书——第一章就在定义什么是 Intelligent Agent。Stuart Russell 本人也跟苏煜强调过这一点。只是后来随着 AI 分化为计算机视觉、NLP、机器学习等子领域大家渐渐忘了这个出发点。那判断一个 Agent 好不好用什么框架苏煜提出了两个核心维度Memory广义记忆不只是记住东西包括知识表达Knowledge Representation——怎么存储知识获取Knowledge Acquisition——怎么学习知识更新与遗忘——怎么迭代知识本身也分类型这个分类对理解 Agent 各时代的 Memory 短板很关键知识类型含义对 Agent 设计的挑战语义知识Semantic事实和概念如Python 是解释型语言最容易存储——规则、文档、训练数据都行情景记忆Episodic经历过的事件如上次那个 bug 是因为并发导致的需要上下文关联和时间标记当前 Agent 的弱项程序性记忆Procedural技能和流程如怎么调试 OOM 问题需要在行动中学习Deep RL 擅长但 LLM 还在探索Autonomy自主性从感知到行动的完整链路Perception——感知环境状态Reasoning——基于感知和已有知识做推理Decision Making——基于推理做决策Action——把决策反映到外部环境Memory 是 Autonomy 的基础两者一体两面。这个框架的价值在于用它可以横向对比任何时代的 Agent一眼看出强在哪、弱在哪。下面三个时代的分析都用这个框架。2. 第一个时代逻辑 Agent1950s—1990s图 3三时代对比——Memory 从 KB 级逻辑规则到 100B 参数Autonomy 从单步推理到自适应多步推理任意环境操作面积代表能力量级最早能 work 的 Agent 是基于逻辑的 Agent——也就是专家系统。工作方式采访领域专家 → 把知识写成一阶谓词逻辑或产生式规则 → 用推理引擎做逻辑推演 → 得到答案。典型代表MYCIN1976医疗诊断、DENDRAL化学分析、CLIPSNASA 用的规则引擎。用 Memory Autonomy 框架审视维度逻辑 Agent 的表现根本限制Memory有限的逻辑陈述Logical Statements——只能存语义知识无法存情景记忆和程序性记忆表达能力被逻辑语言锁死——世界上大部分东西无法用简单的 if-then 规则表达Autonomy接收问题 → 逻辑推演 → 输出答案只能做推理不能感知复杂环境、不能自主行动后来人们试了高阶逻辑、模糊逻辑Fuzzy Logic、概率逻辑但效果有限。苏煜举了一个具体例子你能用逻辑规则写出感冒时体温 38° → 建议退烧药但你没法用逻辑规则描述这张 X 光片里有没有结节——视觉、直觉、经验这类知识无法被逻辑语言捕获。最致命的瓶颈是Knowledge Acquisition Bottleneck知识获取瓶颈——靠工程师去采访专家再手工转译成逻辑语言这个过程极其痛苦。苏煜在访谈中说“那个过程是非常痛苦、非常低效并且效果非常有限的。”这直接导致了 1980—90 年代的 AI 寒冬。专家系统无法兑现承诺promise整个领域信心崩塌。3. 第二个时代神经 Agent2000s—20202000 年后尤其 2010 年后深度强化学习Deep RL带来了新一代 Agent。代表作DQNAtari 游戏2013 预印本 / 2015 Nature 正式发表、AlphaGo2016、OpenAI FiveDota 22019、AlphaStar星际争霸2019。用同样的框架分析维度神经 Agent 的表现根本限制Memory几十到一百 million 参数的小网络——能存程序性记忆“怎么下棋”但容量极小只能存一个游戏无法泛化换个任务就得从头训练Autonomy输入画面 → 一次 forward pass → 输出动作不管问题多复杂计算量都固定为一次 forward pass苏煜指出了一个被很多人忽略的关键问题人对不同复杂度的情况推理的计算量是不同的。下棋遇到简单局面你一秒决定遇到关键转折你可能想十分钟。但 Neural Agent 对任何输入都只做一次 forward pass——推理能力被锁死了无法多想一会儿。这就是为什么后来 Chain of Thought 那么重要——它第一次让 AI 可以自适应推理深度。这个问题等到 Language Agent 时代才被解决。另一个大问题是Sample EfficiencyDQN 打 Atari 游戏通常需要数百万到上千万帧训练数据如 Pong 约 500 万帧Breakout 约 1000 万帧。这也是为什么大家选游戏作为训练环境——游戏高度可重复可以无限生成数据成本远低于真实世界。被忽视的暗线Semantic Parsing同一时期NLP 领域的Semantic Parsing语义解析在做另一件事把自然语言转化成机器可执行的形式——可以是 SQL 查询、知识图谱查询、API 调用、网站操作。具体来说用户说帮我查上个月销售额最高的产品 → 系统把这句话转成SELECT product FROM sales WHERE monthlast ORDER BY revenue DESC LIMIT 1→ 执行并返回结果。这看起来和 Agent 关系不大实际上它在做一件关键的事——扩大 Agent 可以操作的环境范围。Neural Agent 只能操作游戏手柄Semantic Parsing 则让机器可以操作数据库、网站、各种软件工具。苏煜自己就是 Semantic Parsing 出身。他在访谈中列举了后来做 Language Agent 的主力军几乎都来自这个方向University of Washington 的 Luke Zettlemoyer参与了 ELMo、RoBERTa 等 LLM 前时代的语言理解工作、港大的于涛OS-World 作者、苏煜本人。这不是巧合——Semantic Parsing 本质上就是让机器听懂人话并执行跟 Agent 殊途同归。Neural Agent 关注做深在单一环境里做到极致Semantic Parsing 关注做广能操作各种不同的环境两者互补。Language Agent 时代则同时解决了这两个问题——Mind2Web 就是一个典型例子它继承了 Semantic Parsing 时代把自然语言映射到网站操作的问题定义但不再为每个网站单独训练模型而是用 LLM 的通用能力直接泛化到任意网站。4. 第三个时代Language Agent2022—至今图 42022—2026 Language Agent 里程碑时间线——从 CoT 到 OpenClaw 的加速爆发轨迹ChatGPT2022.11之后一切变了。这一代 Agent 被苏煜称为Language Agent——语言驱动的智能体。为什么叫 Language Agent因为语言成了一切的脚手架ScaffoldPerception感知人可以用自然语言描述任务Agent 也可以用语言理解屏幕内容、文档内容、用户意图——交互灵活度指数级提升。Reasoning推理Chain of Thought 实现了Adaptive Computing——任务简单就少生成几个 token任务复杂就多生成。每个 token 的生成都是一次 forward pass所以推理计算量终于可以自适应了。这是苏煜认为最本质的突破——Neural Agent 时代被锁死的问题Language Agent 用多说几句话就解决了。Action行动自然语言可以转成代码、API 调用、命令行操作。编程语言本身就是 Language 的子集。你可以用语言操控几乎一切数字工具——浏览器、数据库、操作系统、开发环境。Memory记忆大模型的训练过程不只是学说话。苏煜的观点是训练过程实际上是一个压缩——从语言的表面形式surface form压缩成对世界的内部表示representation。早年很多人认为 LLM 只是随机鹦鹉Stochastic Parrot但现在越来越清楚它在训练中形成了某种世界模型。关键里程碑时间线时间工作为什么重要2022 初Chain of ThoughtGoogle第一次让 LLM 可以自适应推理深度2022.10ReActYao et al.把 CoT 扩展到有外部环境的 Agent奠定了思考→行动循环2022.11ChatGPTLLM 能力的公众认知转折点2023.02ToolformerMetaNeurIPS 2023证明 LLM 可以自主学会调用外部工具2023.03AutoGPTGitHub star 增长速度空前截至 2025 年约 17 万Agent 概念首次大规模出圈2023.06Mind2Web苏煜团队首个面向任意网站的通用 Web Agent2023 下半年GPT-4V、SWE-bench多模态 Agent Coding Agent 两条赛道同时启动2024.03OS-World于涛团队Agent 扩展到 Desktop/Mobile 环境2024.10Claude Computer Use、UGroundPixel-level Computer UseAgent 像人一样看屏幕、点鼠标2025 上半年Claude Code、Cursor 爆发Coding Agent 进入大规模生产使用阶段2026.01OpenClaw 发布据报道 60 天内突破 25 万 GitHub starAgent 的 “ChatGPT Moment”注OpenClaw 是 Peter Steinberger 创建的开源自托管 AI Agent前身 Clawdbot2026 年 1 月底正式发布据 Medium 报道于 3 月 3 日突破 25 万 GitHub star。通过 WhatsApp/Telegram/Discord 等即时通讯平台交互本地运行24h always-on。参考Wikipedia、awesome-openclaw5. OpenClaw MomentAgent 的 ChatGPT 时刻图 5上下对比——ChatGPT Moment(2022) vs OpenClaw Moment(2026 初) 的三阶段同构技术就绪→交互形式突变→社会认知爆发苏煜认为OpenClaw 之于 Agent就像 ChatGPT 之于 LLM——底层技术早就 ready 了真正引爆的是交互形式的变化。他用了一个直白的表述“做 Agent 的人去看 OpenClaw 的 code base可能会觉得 ‘nothing new here’这地方没有什么技术创新。但它是一个交互形式的深刻变化。”两次 Moment 的结构性相似ChatGPT Moment2022.11OpenClaw Moment2026.01底层技术积累LLM 从 BERT(2018) 到 GPT-3(2020) 发展了 4 年Agent 设计范式ReAct/Tool Use/Computer Use发展了 3 年引爆的关键变化把 GPT-3.5 包装成 Chatbot对公众开放24h Always-on 即时通讯交互 全权限开放 开源意外程度OpenAI 研究员自己都没想到公众这么喜欢做 Agent 的人看代码觉得 “nothing new”社会效应全民认知到LLM 已经这么强了全民认知到Agent 已经这么强了后续产业反应所有科技公司 All-in LLM所有科技公司 All-in AgentAnthropic 推 Claude CodeOpenAI 推 Operator苏煜提到黄仁勋公开表态每个企业都要有 Agent Strategy表格中全权限开放这一项值得展开。苏煜的概括是不限制权限、不设安全护栏、让 Agent 自由操作——用他的原话说就是放开干。为什么这能 work 而不失控苏煜分析“因为它是开源的安全问题可以被社区分散消化。如果是闭源产品这么给权限那会出大问题的。”中美反应差异与应用层机会苏煜观察到一个现象OpenClaw 在中国的火爆程度可能超过美国。美国这边主要是开发者群体在研究架构和新用法中国则快速出圈——Bloomberg 2026 年 3 月报道中国银行和政府机构开始限制 OpenClaw 使用恰恰从侧面证明了其渗透速度培训班和社区活动大量涌现。苏煜提到他听说的一个案例有人家里老人拿着电脑去线下活动找人帮忙安装。苏煜认为这反映的是中国在应用层一贯的速度优势。他引用了 Google 前 CEO Eric Schmidt 的观察——中国在前端技术应用上历来领先于发明国。苏煜判断在 AI 时代这是结构性优势“现在基础模型的智能已经超过了临界点。很多事情以前不值得做——摩擦太高、经济账算不过来。现在 AI 降低了摩擦这些事情跨过了’值得做’的阈值。缺的是有人有洞察、有执行力去发现并抓住这些价值。”——苏煜换句话说模型能力已经够了瓶颈变成了谁最快找到值得做的场景并落地。OpenClaw Moment 解释了社会认知为什么突然爆发。但技术本身的走向是什么6. 走向 Universal Digital Agent边界消弭与语言的根本性图 6左右对比——人类进化中语言出现后文明加速 vs AI 进化中 LLM 出现后 Agent 加速语言作为共同催化节点早期大家会把 Agent 分类Web Agent、Desktop Agent、Mobile Agent、Coding Agent、GUI-based、CLI-based……苏煜的判断是这些分类是临时性的边界正在快速消弭。“At the end of the day大家想要的就是一个 Universal Digital Agent——一个可以在数字世界里做人能做到所有事情、甚至做得更好的 Agent。这些它是 browser 还是 desktop 还是 mobile是 GUI 还是 CLI 还是 API其实只是 a means to an end只是手段。”——苏煜Coding 在消弭过程中扮演了核心角色。为什么因为 GUI 本身就是通过 Code 渲染出来的——理论上任何 GUI 操作都能用 Code 等价表达。苏煜认为这也是 Anthropic 在 Claude Code 上押重注的原因他在访谈中特别提到不得不佩服 Dario 在这点上把握得非常准。GUI 不会消失——人类是视觉动物GUI 用于验证、审计、信任建立。但 Agent 之间的交互大概率走 Code/API 路线。语言范式会被颠覆吗第 4 节已经解释了语言作为脚手架如何统一了 Memory 和 Autonomy。但一个自然的追问是未来世界模型会取代语言模型吗苏煜在 2023 年的博客 “Language Agents: A Critical Evolutionary Step” 中给出了明确回答“Individual thought doesn’t need language, but civilization needs language。现代文明的任何领域——工业、科学、法律、工程——都依赖符号化表达。这不会改变。”对从业者的实际启示不要等更好的模型再开始做 Agent。你今天基于 LLM 搭建的 Agent 架构Tool Use、CoT、Memory 系统在未来模型换代时大部分可以复用——因为语言驱动的交互范式不会被替换只会被增强。7. 当前局限Agent 还不能做什么技术史容易制造乐观幻觉。这里列出当前 Language Agent 的核心短板帮你校准预期问题具体表现应对策略Hallucination幻觉Agent 会自信地执行错误操作——Coding Agent 可能引入看起来合理但逻辑错误的代码必须有人审核 diff用测试套件做自动校验对关键路径设 assertion长程规划脆弱超过 10 步的任务链Agent 容易丢失上下文或偏离目标拆分为 3-5 步的子任务在关键节点设置 checkpoint 让人确认方向安全与权限Agent 操作真实环境文件系统、网络、API错误操作可能不可逆用沙箱隔离Docker/VM分级授权危险操作设 confirm 机制成本复杂任务可能消耗大量 token一次深度 Coding Agent 会话可达数美元先评估 ROI——重复性高、规则清晰的任务优先交给 Agent可解释性Agent 的决策链路难以审计——为什么选了这个方案要求 Agent 输出 reasoning traceCoT用 log 记录每步决策供事后审计苏煜在访谈中也有类似的审慎态度。他专门提到早期大家做 Agent 会比较克制因为 Agent 能产生各种意料之外的行为。OpenClaw 的激进开放策略能 work很大程度上依赖于开源社区的分散式风险消化——这不是所有产品都能照搬的模式。8. 实战路径读完这篇你可以做什么你的角色具体行动工程师从 Claude Code / Cursor 开始体验当前 Coding Agent 的真实能力边界。读 ReAct 论文理解基础架构。尝试用 LangChain/CrewAI 搭建一个简单的 Tool-Use Agent产品经理列出你产品中用户需要学 5 分钟以上才会用的功能评估哪些可以被 Agent 接管。参考 OpenClaw 的交互范式24h available 自然语言驱动技术管理者审计团队的 Agent 采用率。参考行业趋势Anthropic 官方博客 “Running an AI-native engineering org”2026.06.03中提到其 Claude Code 团队已连续数月几乎所有 commit 都有 AI 辅助。识别以前摩擦太高不值得做、现在跨过阈值的场景研究者Memory 仍是短板——长期记忆、知识更新、经验遗忘都还没有好方案。Autonomy 侧的 Perception多模态理解也有大量开放问题。读 Mind2Web、OS-World、UGround 论文了解 benchmark 设计方法创业者苏煜观点中国应用层动作快是优势。关注两类机会(1) 垂直领域 Agent医疗/法律/财务(2) Agent 基础设施监控/安全/编排入手工具选择2026 年 6 月场景推荐适合谁日常编码辅助补全、生成、重构Cursor喜欢 IDE 内交互的开发者复杂多文件任务跨模块重构、调试、PRClaude Code (CLI)习惯终端工作流、需要 Agent 自主操作文件系统构建自定义 Agent 产品LangGraph / CrewAI需要编排多步骤、多工具的后端开发者浏览器/桌面自动化Claude Computer Use API MCP要让 Agent 操作 GUI 应用的场景学习 Agent 设计benchmarkSWE-bench、WebArena、OS-World研究者、想理解 Agent 真实能力边界的人总结Agent 不是新概念。七十年来经历了三次范式跃迁每次都是因为前一代的核心限制被新范式解决逻辑 Agent1950-1990 └─ 限制表达受限 知识获取瓶颈 └─ 解法用神经网络学习表示 │ 神经 Agent2000-2020 └─ 限制推理固定一次 forward pass 泛化差 └─ 解法用语言作为自适应推理的脚手架 │ Language Agent2022-至今 └─ 语言统一了 Memory 和 Autonomy └─ 当前方向边界消弭 → Universal Digital AgentOpenClaw Moment 的本质不是技术突破而是交互形式变化引发的社会认知跃迁——结构上和 ChatGPT Moment 完全一样。如果你只记住一件事Agent 的核心问题是 Memory Autonomy。任何新工具、新产品、新论文出来用这个框架问两个问题——它的记忆能力是什么水平它的自主性到了什么程度——你就能快速定位它在七十年进化长河中的位置。参考与延伸阅读入门首选1 篇了解全貌张小珺《商业访谈录》第 139 期和苏煜聊 Agent 技术史、OpenClaw Moment、边界的消弭和社会的辐射2026——本文的源材料适合想听完整技术叙事的人理解框架适合所有人Su, Y. “Language Agents: A Critical Evolutionary Step for Artificial Intelligence” (Blog, 2023) ——苏煜的进化视角原文Russell, S. Norvig, P. “Artificial Intelligence: A Modern Approach” (1995) ——经典教材第一章对 Agent 的定义深入论文适合研究者和开发者Yao, S. et al. “ReAct: Synergizing Reasoning and Acting in Language Models” (2022) ——Language Agent 架构基石Deng, X. et al. “Mind2Web: Towards a Generalist Agent for the Web” (2023) ——通用 Web Agent 设计思路Zheng, B. et al. “SeeAct: GPT-4V(ision) is a Generalist Web Agent” (2024) ——视觉驱动的 Computer UseXie, T. et al. “OS-World: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments” (2024) ——Desktop Agent benchmark 设计方法Schick, T. et al. “Toolformer: Language Models Can Teach Themselves to Use Tools” (Meta, NeurIPS 2023)Wei, J. et al. “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models” (Google, NeurIPS 2022)
Agent 技术演化史:从逻辑推理到语言驱动的七十年
发布时间:2026/6/9 3:29:53
Agent 技术演化史从逻辑推理到语言驱动的七十年图 1左→右三时代视觉概览逻辑树规则受限→ 游戏/棋盘环境受限→ 多屏操控通用数字世界文章目录Agent 技术演化史从逻辑推理到语言驱动的七十年1. 什么是 Agent一个跨越七十年的定义Memory广义记忆Autonomy自主性2. 第一个时代逻辑 Agent1950s—1990s3. 第二个时代神经 Agent2000s—2020被忽视的暗线Semantic Parsing4. 第三个时代Language Agent2022—至今关键里程碑时间线5. OpenClaw MomentAgent 的 ChatGPT 时刻中美反应差异与应用层机会6. 走向 Universal Digital Agent边界消弭与语言的根本性语言范式会被颠覆吗7. 当前局限Agent 还不能做什么8. 实战路径读完这篇你可以做什么总结参考与延伸阅读摘要从 1950 年代专家系统到 2026 年 OpenClaw MomentAgent 技术经历了三次范式跃迁。本文基于苏煜教授的技术史梳理拆解 Agent 的核心框架、关键转折点和未来走向。2026 年你打开 Claude Code描述一个跨三个文件的重构需求。它读上下文、改代码、跑测试、修掉新引入的 regression、提交 PR。你审了一遍 diffapprove合入。对比两年前这类工作的大部分编码时间被 Agent 接管了。人的角色正在从实现者向审核者和决策者迁移。为什么是这两年突然爆发的底下积累了什么当前的边界又在哪里大多数人对这些问题的认知是断裂的——只看到了 ChatGPT 之后的现象不清楚七十年来到底发生了几次范式跃迁、每次跃迁解决了什么问题。2026 年初俄亥俄州立大学计算机系教授、Neo Cognition 创始人苏煜在一次深度访谈中张小珺《商业访谈录》第 139 期从 1950 年代讲到当下完整梳理了 Agent 的技术演化脉络。苏煜的研究组做出了 Mind2Web基于 LLM 的早期通用 Web Agent面向任意网站而非受限环境2023、SeeAct/UGround视觉驱动的 Computer Use Agent2024等开创性工作也是多模态 benchmark MMMU 的核心指导教师2025 年斯隆研究奖得主。他是少数从 Semantic Parsing 时代一路参与到 Language Agent 爆发的学者。这篇文章从那个访谈中提取技术脉络按是什么 → 怎么演变的 → 对你意味着什么的逻辑重新组织。1. 什么是 Agent一个跨越七十年的定义图 2Agent 分析框架——左侧 Memory 三层语义/情景/程序右侧 Autonomy 四环感知→推理→决策→行动中间是 Agent 实体底部是外部环境Agent 的定义争论了几十年。苏煜在访谈中给出的定义有三个要素有界实体Entity with boundary——它是一个独立个体不是发散的抽象概念环境中工作——必须存在于某种外部环境中目的性活动Goal-directed activities——带有目的地行动而非随机游荡按这个定义所有动物都是 Agent人是有最先进智能的 Agent。AI 从一开始追求的就是造一个人工的 Agent。苏煜在访谈中特别提到Russell 和 Norvig 的经典教材《Artificial Intelligence: A Modern Approach》1995 年第一版本质上就是一本关于 Agent 的书——第一章就在定义什么是 Intelligent Agent。Stuart Russell 本人也跟苏煜强调过这一点。只是后来随着 AI 分化为计算机视觉、NLP、机器学习等子领域大家渐渐忘了这个出发点。那判断一个 Agent 好不好用什么框架苏煜提出了两个核心维度Memory广义记忆不只是记住东西包括知识表达Knowledge Representation——怎么存储知识获取Knowledge Acquisition——怎么学习知识更新与遗忘——怎么迭代知识本身也分类型这个分类对理解 Agent 各时代的 Memory 短板很关键知识类型含义对 Agent 设计的挑战语义知识Semantic事实和概念如Python 是解释型语言最容易存储——规则、文档、训练数据都行情景记忆Episodic经历过的事件如上次那个 bug 是因为并发导致的需要上下文关联和时间标记当前 Agent 的弱项程序性记忆Procedural技能和流程如怎么调试 OOM 问题需要在行动中学习Deep RL 擅长但 LLM 还在探索Autonomy自主性从感知到行动的完整链路Perception——感知环境状态Reasoning——基于感知和已有知识做推理Decision Making——基于推理做决策Action——把决策反映到外部环境Memory 是 Autonomy 的基础两者一体两面。这个框架的价值在于用它可以横向对比任何时代的 Agent一眼看出强在哪、弱在哪。下面三个时代的分析都用这个框架。2. 第一个时代逻辑 Agent1950s—1990s图 3三时代对比——Memory 从 KB 级逻辑规则到 100B 参数Autonomy 从单步推理到自适应多步推理任意环境操作面积代表能力量级最早能 work 的 Agent 是基于逻辑的 Agent——也就是专家系统。工作方式采访领域专家 → 把知识写成一阶谓词逻辑或产生式规则 → 用推理引擎做逻辑推演 → 得到答案。典型代表MYCIN1976医疗诊断、DENDRAL化学分析、CLIPSNASA 用的规则引擎。用 Memory Autonomy 框架审视维度逻辑 Agent 的表现根本限制Memory有限的逻辑陈述Logical Statements——只能存语义知识无法存情景记忆和程序性记忆表达能力被逻辑语言锁死——世界上大部分东西无法用简单的 if-then 规则表达Autonomy接收问题 → 逻辑推演 → 输出答案只能做推理不能感知复杂环境、不能自主行动后来人们试了高阶逻辑、模糊逻辑Fuzzy Logic、概率逻辑但效果有限。苏煜举了一个具体例子你能用逻辑规则写出感冒时体温 38° → 建议退烧药但你没法用逻辑规则描述这张 X 光片里有没有结节——视觉、直觉、经验这类知识无法被逻辑语言捕获。最致命的瓶颈是Knowledge Acquisition Bottleneck知识获取瓶颈——靠工程师去采访专家再手工转译成逻辑语言这个过程极其痛苦。苏煜在访谈中说“那个过程是非常痛苦、非常低效并且效果非常有限的。”这直接导致了 1980—90 年代的 AI 寒冬。专家系统无法兑现承诺promise整个领域信心崩塌。3. 第二个时代神经 Agent2000s—20202000 年后尤其 2010 年后深度强化学习Deep RL带来了新一代 Agent。代表作DQNAtari 游戏2013 预印本 / 2015 Nature 正式发表、AlphaGo2016、OpenAI FiveDota 22019、AlphaStar星际争霸2019。用同样的框架分析维度神经 Agent 的表现根本限制Memory几十到一百 million 参数的小网络——能存程序性记忆“怎么下棋”但容量极小只能存一个游戏无法泛化换个任务就得从头训练Autonomy输入画面 → 一次 forward pass → 输出动作不管问题多复杂计算量都固定为一次 forward pass苏煜指出了一个被很多人忽略的关键问题人对不同复杂度的情况推理的计算量是不同的。下棋遇到简单局面你一秒决定遇到关键转折你可能想十分钟。但 Neural Agent 对任何输入都只做一次 forward pass——推理能力被锁死了无法多想一会儿。这就是为什么后来 Chain of Thought 那么重要——它第一次让 AI 可以自适应推理深度。这个问题等到 Language Agent 时代才被解决。另一个大问题是Sample EfficiencyDQN 打 Atari 游戏通常需要数百万到上千万帧训练数据如 Pong 约 500 万帧Breakout 约 1000 万帧。这也是为什么大家选游戏作为训练环境——游戏高度可重复可以无限生成数据成本远低于真实世界。被忽视的暗线Semantic Parsing同一时期NLP 领域的Semantic Parsing语义解析在做另一件事把自然语言转化成机器可执行的形式——可以是 SQL 查询、知识图谱查询、API 调用、网站操作。具体来说用户说帮我查上个月销售额最高的产品 → 系统把这句话转成SELECT product FROM sales WHERE monthlast ORDER BY revenue DESC LIMIT 1→ 执行并返回结果。这看起来和 Agent 关系不大实际上它在做一件关键的事——扩大 Agent 可以操作的环境范围。Neural Agent 只能操作游戏手柄Semantic Parsing 则让机器可以操作数据库、网站、各种软件工具。苏煜自己就是 Semantic Parsing 出身。他在访谈中列举了后来做 Language Agent 的主力军几乎都来自这个方向University of Washington 的 Luke Zettlemoyer参与了 ELMo、RoBERTa 等 LLM 前时代的语言理解工作、港大的于涛OS-World 作者、苏煜本人。这不是巧合——Semantic Parsing 本质上就是让机器听懂人话并执行跟 Agent 殊途同归。Neural Agent 关注做深在单一环境里做到极致Semantic Parsing 关注做广能操作各种不同的环境两者互补。Language Agent 时代则同时解决了这两个问题——Mind2Web 就是一个典型例子它继承了 Semantic Parsing 时代把自然语言映射到网站操作的问题定义但不再为每个网站单独训练模型而是用 LLM 的通用能力直接泛化到任意网站。4. 第三个时代Language Agent2022—至今图 42022—2026 Language Agent 里程碑时间线——从 CoT 到 OpenClaw 的加速爆发轨迹ChatGPT2022.11之后一切变了。这一代 Agent 被苏煜称为Language Agent——语言驱动的智能体。为什么叫 Language Agent因为语言成了一切的脚手架ScaffoldPerception感知人可以用自然语言描述任务Agent 也可以用语言理解屏幕内容、文档内容、用户意图——交互灵活度指数级提升。Reasoning推理Chain of Thought 实现了Adaptive Computing——任务简单就少生成几个 token任务复杂就多生成。每个 token 的生成都是一次 forward pass所以推理计算量终于可以自适应了。这是苏煜认为最本质的突破——Neural Agent 时代被锁死的问题Language Agent 用多说几句话就解决了。Action行动自然语言可以转成代码、API 调用、命令行操作。编程语言本身就是 Language 的子集。你可以用语言操控几乎一切数字工具——浏览器、数据库、操作系统、开发环境。Memory记忆大模型的训练过程不只是学说话。苏煜的观点是训练过程实际上是一个压缩——从语言的表面形式surface form压缩成对世界的内部表示representation。早年很多人认为 LLM 只是随机鹦鹉Stochastic Parrot但现在越来越清楚它在训练中形成了某种世界模型。关键里程碑时间线时间工作为什么重要2022 初Chain of ThoughtGoogle第一次让 LLM 可以自适应推理深度2022.10ReActYao et al.把 CoT 扩展到有外部环境的 Agent奠定了思考→行动循环2022.11ChatGPTLLM 能力的公众认知转折点2023.02ToolformerMetaNeurIPS 2023证明 LLM 可以自主学会调用外部工具2023.03AutoGPTGitHub star 增长速度空前截至 2025 年约 17 万Agent 概念首次大规模出圈2023.06Mind2Web苏煜团队首个面向任意网站的通用 Web Agent2023 下半年GPT-4V、SWE-bench多模态 Agent Coding Agent 两条赛道同时启动2024.03OS-World于涛团队Agent 扩展到 Desktop/Mobile 环境2024.10Claude Computer Use、UGroundPixel-level Computer UseAgent 像人一样看屏幕、点鼠标2025 上半年Claude Code、Cursor 爆发Coding Agent 进入大规模生产使用阶段2026.01OpenClaw 发布据报道 60 天内突破 25 万 GitHub starAgent 的 “ChatGPT Moment”注OpenClaw 是 Peter Steinberger 创建的开源自托管 AI Agent前身 Clawdbot2026 年 1 月底正式发布据 Medium 报道于 3 月 3 日突破 25 万 GitHub star。通过 WhatsApp/Telegram/Discord 等即时通讯平台交互本地运行24h always-on。参考Wikipedia、awesome-openclaw5. OpenClaw MomentAgent 的 ChatGPT 时刻图 5上下对比——ChatGPT Moment(2022) vs OpenClaw Moment(2026 初) 的三阶段同构技术就绪→交互形式突变→社会认知爆发苏煜认为OpenClaw 之于 Agent就像 ChatGPT 之于 LLM——底层技术早就 ready 了真正引爆的是交互形式的变化。他用了一个直白的表述“做 Agent 的人去看 OpenClaw 的 code base可能会觉得 ‘nothing new here’这地方没有什么技术创新。但它是一个交互形式的深刻变化。”两次 Moment 的结构性相似ChatGPT Moment2022.11OpenClaw Moment2026.01底层技术积累LLM 从 BERT(2018) 到 GPT-3(2020) 发展了 4 年Agent 设计范式ReAct/Tool Use/Computer Use发展了 3 年引爆的关键变化把 GPT-3.5 包装成 Chatbot对公众开放24h Always-on 即时通讯交互 全权限开放 开源意外程度OpenAI 研究员自己都没想到公众这么喜欢做 Agent 的人看代码觉得 “nothing new”社会效应全民认知到LLM 已经这么强了全民认知到Agent 已经这么强了后续产业反应所有科技公司 All-in LLM所有科技公司 All-in AgentAnthropic 推 Claude CodeOpenAI 推 Operator苏煜提到黄仁勋公开表态每个企业都要有 Agent Strategy表格中全权限开放这一项值得展开。苏煜的概括是不限制权限、不设安全护栏、让 Agent 自由操作——用他的原话说就是放开干。为什么这能 work 而不失控苏煜分析“因为它是开源的安全问题可以被社区分散消化。如果是闭源产品这么给权限那会出大问题的。”中美反应差异与应用层机会苏煜观察到一个现象OpenClaw 在中国的火爆程度可能超过美国。美国这边主要是开发者群体在研究架构和新用法中国则快速出圈——Bloomberg 2026 年 3 月报道中国银行和政府机构开始限制 OpenClaw 使用恰恰从侧面证明了其渗透速度培训班和社区活动大量涌现。苏煜提到他听说的一个案例有人家里老人拿着电脑去线下活动找人帮忙安装。苏煜认为这反映的是中国在应用层一贯的速度优势。他引用了 Google 前 CEO Eric Schmidt 的观察——中国在前端技术应用上历来领先于发明国。苏煜判断在 AI 时代这是结构性优势“现在基础模型的智能已经超过了临界点。很多事情以前不值得做——摩擦太高、经济账算不过来。现在 AI 降低了摩擦这些事情跨过了’值得做’的阈值。缺的是有人有洞察、有执行力去发现并抓住这些价值。”——苏煜换句话说模型能力已经够了瓶颈变成了谁最快找到值得做的场景并落地。OpenClaw Moment 解释了社会认知为什么突然爆发。但技术本身的走向是什么6. 走向 Universal Digital Agent边界消弭与语言的根本性图 6左右对比——人类进化中语言出现后文明加速 vs AI 进化中 LLM 出现后 Agent 加速语言作为共同催化节点早期大家会把 Agent 分类Web Agent、Desktop Agent、Mobile Agent、Coding Agent、GUI-based、CLI-based……苏煜的判断是这些分类是临时性的边界正在快速消弭。“At the end of the day大家想要的就是一个 Universal Digital Agent——一个可以在数字世界里做人能做到所有事情、甚至做得更好的 Agent。这些它是 browser 还是 desktop 还是 mobile是 GUI 还是 CLI 还是 API其实只是 a means to an end只是手段。”——苏煜Coding 在消弭过程中扮演了核心角色。为什么因为 GUI 本身就是通过 Code 渲染出来的——理论上任何 GUI 操作都能用 Code 等价表达。苏煜认为这也是 Anthropic 在 Claude Code 上押重注的原因他在访谈中特别提到不得不佩服 Dario 在这点上把握得非常准。GUI 不会消失——人类是视觉动物GUI 用于验证、审计、信任建立。但 Agent 之间的交互大概率走 Code/API 路线。语言范式会被颠覆吗第 4 节已经解释了语言作为脚手架如何统一了 Memory 和 Autonomy。但一个自然的追问是未来世界模型会取代语言模型吗苏煜在 2023 年的博客 “Language Agents: A Critical Evolutionary Step” 中给出了明确回答“Individual thought doesn’t need language, but civilization needs language。现代文明的任何领域——工业、科学、法律、工程——都依赖符号化表达。这不会改变。”对从业者的实际启示不要等更好的模型再开始做 Agent。你今天基于 LLM 搭建的 Agent 架构Tool Use、CoT、Memory 系统在未来模型换代时大部分可以复用——因为语言驱动的交互范式不会被替换只会被增强。7. 当前局限Agent 还不能做什么技术史容易制造乐观幻觉。这里列出当前 Language Agent 的核心短板帮你校准预期问题具体表现应对策略Hallucination幻觉Agent 会自信地执行错误操作——Coding Agent 可能引入看起来合理但逻辑错误的代码必须有人审核 diff用测试套件做自动校验对关键路径设 assertion长程规划脆弱超过 10 步的任务链Agent 容易丢失上下文或偏离目标拆分为 3-5 步的子任务在关键节点设置 checkpoint 让人确认方向安全与权限Agent 操作真实环境文件系统、网络、API错误操作可能不可逆用沙箱隔离Docker/VM分级授权危险操作设 confirm 机制成本复杂任务可能消耗大量 token一次深度 Coding Agent 会话可达数美元先评估 ROI——重复性高、规则清晰的任务优先交给 Agent可解释性Agent 的决策链路难以审计——为什么选了这个方案要求 Agent 输出 reasoning traceCoT用 log 记录每步决策供事后审计苏煜在访谈中也有类似的审慎态度。他专门提到早期大家做 Agent 会比较克制因为 Agent 能产生各种意料之外的行为。OpenClaw 的激进开放策略能 work很大程度上依赖于开源社区的分散式风险消化——这不是所有产品都能照搬的模式。8. 实战路径读完这篇你可以做什么你的角色具体行动工程师从 Claude Code / Cursor 开始体验当前 Coding Agent 的真实能力边界。读 ReAct 论文理解基础架构。尝试用 LangChain/CrewAI 搭建一个简单的 Tool-Use Agent产品经理列出你产品中用户需要学 5 分钟以上才会用的功能评估哪些可以被 Agent 接管。参考 OpenClaw 的交互范式24h available 自然语言驱动技术管理者审计团队的 Agent 采用率。参考行业趋势Anthropic 官方博客 “Running an AI-native engineering org”2026.06.03中提到其 Claude Code 团队已连续数月几乎所有 commit 都有 AI 辅助。识别以前摩擦太高不值得做、现在跨过阈值的场景研究者Memory 仍是短板——长期记忆、知识更新、经验遗忘都还没有好方案。Autonomy 侧的 Perception多模态理解也有大量开放问题。读 Mind2Web、OS-World、UGround 论文了解 benchmark 设计方法创业者苏煜观点中国应用层动作快是优势。关注两类机会(1) 垂直领域 Agent医疗/法律/财务(2) Agent 基础设施监控/安全/编排入手工具选择2026 年 6 月场景推荐适合谁日常编码辅助补全、生成、重构Cursor喜欢 IDE 内交互的开发者复杂多文件任务跨模块重构、调试、PRClaude Code (CLI)习惯终端工作流、需要 Agent 自主操作文件系统构建自定义 Agent 产品LangGraph / CrewAI需要编排多步骤、多工具的后端开发者浏览器/桌面自动化Claude Computer Use API MCP要让 Agent 操作 GUI 应用的场景学习 Agent 设计benchmarkSWE-bench、WebArena、OS-World研究者、想理解 Agent 真实能力边界的人总结Agent 不是新概念。七十年来经历了三次范式跃迁每次都是因为前一代的核心限制被新范式解决逻辑 Agent1950-1990 └─ 限制表达受限 知识获取瓶颈 └─ 解法用神经网络学习表示 │ 神经 Agent2000-2020 └─ 限制推理固定一次 forward pass 泛化差 └─ 解法用语言作为自适应推理的脚手架 │ Language Agent2022-至今 └─ 语言统一了 Memory 和 Autonomy └─ 当前方向边界消弭 → Universal Digital AgentOpenClaw Moment 的本质不是技术突破而是交互形式变化引发的社会认知跃迁——结构上和 ChatGPT Moment 完全一样。如果你只记住一件事Agent 的核心问题是 Memory Autonomy。任何新工具、新产品、新论文出来用这个框架问两个问题——它的记忆能力是什么水平它的自主性到了什么程度——你就能快速定位它在七十年进化长河中的位置。参考与延伸阅读入门首选1 篇了解全貌张小珺《商业访谈录》第 139 期和苏煜聊 Agent 技术史、OpenClaw Moment、边界的消弭和社会的辐射2026——本文的源材料适合想听完整技术叙事的人理解框架适合所有人Su, Y. “Language Agents: A Critical Evolutionary Step for Artificial Intelligence” (Blog, 2023) ——苏煜的进化视角原文Russell, S. Norvig, P. “Artificial Intelligence: A Modern Approach” (1995) ——经典教材第一章对 Agent 的定义深入论文适合研究者和开发者Yao, S. et al. “ReAct: Synergizing Reasoning and Acting in Language Models” (2022) ——Language Agent 架构基石Deng, X. et al. “Mind2Web: Towards a Generalist Agent for the Web” (2023) ——通用 Web Agent 设计思路Zheng, B. et al. “SeeAct: GPT-4V(ision) is a Generalist Web Agent” (2024) ——视觉驱动的 Computer UseXie, T. et al. “OS-World: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments” (2024) ——Desktop Agent benchmark 设计方法Schick, T. et al. “Toolformer: Language Models Can Teach Themselves to Use Tools” (Meta, NeurIPS 2023)Wei, J. et al. “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models” (Google, NeurIPS 2022)