想把这三年的变化拆成四个层次来讲Prompt → MCP → Skill → Harness。每一层不是取代上一层而是在上一层的基础上叠加。就像TCP/IP协议栈越往上越接近人的意图越往下越接近机器的执行。第一章 Prompt时代人适应模型2022-20231.1 一切的起点对话即编程2022年11月30日ChatGPT上线。五天一百万用户。两个月一亿用户。那段时间所有人都在做同一件事试探这个模型的边界。给我写一首李白风格的诗用莎士比亚的语气写一段代码注释假如你是一个精神病学家……这些看似好玩的尝试背后隐含着一个深刻的发现大模型的输出质量极度依赖于你输入的方式。同一个问题——Python怎么读文件 → 得到一段基础代码你是一个资深Python工程师请用最佳实践实现一个健壮的文件读取函数处理编码、异常、路径校验附单元测试 → 得到一段生产级代码差距是惊人的。于是Prompt Engineering提示词工程作为一个领域诞生了。1.2 提示词的武器库到2023年中Prompt Engineering已经发展出一套相当成熟的方法论Zero-shot Prompting— 直接问不给示例。最原始的方式但模型足够强时也够用。Few-shot Prompting— 给几个示例让模型照猫画虎。OpenAI的GPT-3论文就证明了短短几个例子效果可以质变。Chain-of-ThoughtCoT— 让模型一步一步思考。2022年1月Google Brain的论文提出简单到令人难以置信只要在Prompt末尾加上Lets think step by step模型在推理任务上的表现就能大幅跃升。这可能是Prompt Engineering历史上性价比最高的发现。ReAct— Reasoning Acting。让模型交替进行思考和行动先分析问题再决定下一步做什么然后观察结果再继续思考。这个范式直接催生了后来的Agent概念。角色扮演— 你是一个资深的xx专家赋予模型一个身份和视角让它的回答更有针对性和一致性。结构化输出— 要求模型以JSON、Markdown表格等格式输出方便下游程序解析。1.3 Prompt时代的本质这些技巧看上去五花八门但都指向同一个现实模型够聪明但我们需要学会怎么跟它说话。这是一种人适应模型的范式。你需要理解模型的脾气——它擅长什么、不擅长什么、什么样的指令格式它理解得最好、什么样的措辞会让它产生幻觉。你像一个驯兽师需要学会用鞭子和糖果让猛兽表演。但鞭子和糖果都有极限。2023年中人们开始碰壁不管Prompt写得多精妙模型也只能「说话」不能「做事」。你让它帮你订机票它会说很抱歉我无法访问外部系统。你让它查今天的天气它会编一个看起来像真的但完全虚构的天气预报。你让它读你电脑上的文件它做不到。Prompt的时代模型是一个有着惊人知识量但被困在玻璃缸里的学者——什么都知道但什么都做不了。于是第二层进化开始了。第二章 MCP与Tool Use时代模型长出手脚2023-20242.1 从Function Calling到工具调用2023年6月OpenAI在GPT-4的更新中引入了Function Calling。这是一个看起来不起眼但意义深远的功能模型不再只能输出文本它还可以输出一个结构化的函数调用请求。什么意思以前你问杭州今天天气怎么样模型会说我无法获取实时天气信息。现在模型可以输出{function: get_weather,arguments: {city: 杭州}}然后你的系统调用天气API把结果返回给模型模型再输出杭州今天多云气温22°C适合出行。模型第一次长出了手脚。这不是简单的搜索增强。搜索增强是把搜索结果塞进上下文模型依然是被动的。Function Calling让模型主动决定需要什么信息、调用什么工具然后根据结果继续推理。这是一个从被动回答到主动行动的质变。2.2 工具生态爆发Function Calling之后工具生态如雨后春笋代码执行器— 让模型写Python代码并实际运行文件系统— 让模型读写本地文件搜索引擎— 让模型实时搜索互联网数据库连接— 让模型查询企业内部数据API网关— 让模型调用各种外部服务OpenAI推出了Plugins生态微软的Copilot全家桶把大模型接入了Office全家桶各种AI X的产品如潮水般涌现。2.3 MCP工具调用的USB协议工具多了问题也来了每家厂商的工具调用格式都不一样。OpenAI有自己的Function Calling格式Google有自己的一套Anthropic也有。每个工具提供方都需要为不同的模型做适配。这是一个典型的N×M问题——N个模型M个工具需要N×M个适配器。2024年底Anthropic提出了MCPModel Context Protocol——模型上下文协议。MCP的核心思想很简单定义一个统一的协议让任何模型都能和任何工具通信。就像USB协议统一了设备接口一样——你不需要为每个设备定制接口只要都遵循USB标准就行。MCP的架构MCP Host— 需要使用工具的应用程序比如Claude Desktop、CursorMCP Client— 和MCP Server通信的协议客户端MCP Server— 提供工具的服务端每个Server暴露一组Tool和Resource这个设计优雅地解耦了模型和工具模型只管我要做什么MCP协议负责怎么和工具通信工具Server负责具体执行什么。此后MCP生态迅速壮大。从数据库连接到文件操作从搜索引擎到企业内部API几乎你能想到的工具都有人做了MCP Server。甚至出现了MCP Server的聚合平台像npm一样安装和使用工具。2.4 Tool Use时代的本质MCP和Tool Use解决了Prompt时代最核心的局限模型不能做事。现在模型可以查天气、写代码、操作文件、调用API——它从一个知识丰富的聊天者变成了一个能干活的助手。但新的问题出现了工具是零散的。就像给一个人配了一整间工具房——锤子、螺丝刀、扳手、电钻应有尽有——但如果你不知道修桌子应该先用哪个、后用哪个、遇到螺丝滑丝怎么办工具再多也白搭。你每次都需要明确告诉模型先查这个API再用那个工具处理数据然后用另一个工具生成报告——工具调用的编排负担仍然在人身上。于是第三层进化开始了。第三章 Skill与Agent时代模型学会方法论2024-20253.1 从给你工具到给你手册Skill这个词在AI领域并没有一个完全统一的定义。但在我看来它的核心含义是Skill 领域知识 工作流编排 工具调用策略如果说工具是零件Skill就是装配手册。不比手册更高级——Skill更像是一个经验丰富的老师傅他不仅知道用什么工具还知道什么时候用、以什么顺序用、遇到意外情况怎么办。举一个具体的例子。假设你要用AI帮你做代码Review只有Prompt的时代你把代码贴给模型说帮我review一下。模型给出一些泛泛的建议常常遗漏关键问题。有了Tool的时代你可以让模型调用Git工具读代码、调用Linter检查格式、调用测试框架运行测试。但你需要一步步告诉它该做什么。有了Skill的时代你只需要说Review这个PRSkill里的代码审查技能会自动分析PR的变更范围和影响逐文件检查代码质量运行静态分析工具检查是否有安全漏洞验证测试覆盖率生成结构化的Review报告你不需要指定每一步因为方法论已经编码在Skill中了。3.2 Agent有策略的执行者Skill解决的是怎么做的问题Agent解决的是做什么和为什么这样做的问题。Agent 感知 规划 行动 反思一个真正的Agent具备感知能力— 理解当前的状态和上下文。不只是接收用户输入还能主动获取信息读文件、查API、搜索网页。规划能力— 把大目标拆解成可执行的步骤。不是机械地执行预设流程而是根据具体情况动态调整策略。行动能力— 调用工具执行操作。写代码、发邮件、改配置、跑测试……反思能力— 检查自己的输出发现错误回退重来。这是Agent和简单脚本最本质的区别——脚本只会傻跑Agent会想想自己做对了没有。2024年Agent框架爆发式增长LangGraph— 把Agent的工作流建模为图Graph支持分支、循环、条件跳转CrewAI— 多Agent协作框架每个Agent有角色和目标AutoGen— 微软出品强调多Agent对话协作OpenClaw— 个人AI助手框架集成Skill、MCP、Cron等能力这些框架的共同目标是让Agent从按指令干活进化为按目标干活。3.3 Agent的顿悟时刻2024年有几个让我印象深刻的Agent时刻Devin— Cognition推出的第一个AI软件工程师。它不仅能写代码还能自己打开浏览器看文档、调试运行错误、自主修复bug。虽然Demo和现实之间有差距但它第一次让人看到了AI自主完成开发任务的可能性。SWE-bench上的突破— AI在真实软件工程任务上的表现快速提升。从最初的几乎无法解决任何问题到解决20%、30%的真实GitHub Issue。Claude的Computer Use— Anthropic让Claude直接操作电脑界面——看屏幕、移动鼠标、点击按钮。这是一种极端的工具调用方式如果所有软件都是工具那操作系统本身就是最大的工具。3.4 Skill时代的本质Skill和Agent解决的核心问题是工具调用的编排。以前人想要一个结果需要自己编排「用什么工具、按什么顺序、异常怎么处理」。现在人只需要给出目标和边界Agent和Skill负责处理中间的所有细节。用管理学的话说我们完成了从微观管理到目标管理的跨越。你不再需要告诉AI每一步做什么你只需要告诉它我想要什么和不要做什么中间的过程它自己搞定。但人真的能完全放手吗显然不能。Agent会犯错会产生幻觉会在错误的方向上越走越远。于是第四层进化登场了。第四章 Harness时代驯服一群智能体2025-4.1 从单兵作战到军团作战Harness英文原意是马具、挽具引申为驾驭、驯服。这个词汇的选择非常精准我们面对的不再是一匹马而是一群马。问题不是怎么骑而是怎么驾驭整个马队。2025年AI使用的核心范式开始从单Agent向多Agent协作迁移Coding Agent Review Agent— 一个写代码一个审查代码。写的人激进查的人保守互相制衡。Research Agent Writer Agent— 一个负责调研收集素材一个负责组织语言写文章。专业分工各展所长。Planner Agent Executor Agent Checker Agent— 规划者分解任务执行者落实细节检查者验证结果。三权分立减少犯错。这不是简单的并行而是有组织的协作——每个Agent有自己的角色、职责、权限和沟通方式。4.2 人在回路Human-in-the-LoopHarness时代最重要的设计原则之一Human-in-the-Loop。完全自主的Agent听起来美好实际很危险。AI会自信满满地犯下人类绝不会犯的错误——删除重要文件、发送错误邮件、花掉不该花的钱。所以Harness架构的核心不是完全自动化而是**关键节点有人把关**Agent写完代码 → 人工Review后再合并Agent发邮件 → 展示草稿人工确认后发送Agent做决策 → 重要的决策需要人工批准非关键路径完全自动化关键路径必须人工确认。这就像公司里的审批流——日常采购部门自己定大额支出必须CEO签字。4.3 会话式编排Harness时代的另一个关键变化编排方式从写代码变成了说话。以前的Agent编排需要写Python脚本、画状态机、定义转移条件。现在你只需要说帮我调研一下Flink在流式数据处理方面的最新进展生成一份报告然后发给团队。系统会自动调度Research Agent去做调研调度Writer Agent来组织报告调度通知Agent发送消息你不需要知道底下有多少个Agent在工作不需要知道它们怎么通信不需要知道它们的Prompt是什么。你只需要用自然语言描述你的意图。这和软件工程的发展轨迹一模一样从机器语言 → 汇编语言 → 高级语言 → 自然语言编程。每一层抽象都让离机器怎么执行更远、离人想什么更近。4.4 自愈与弹性好的Harness还具备一个前沿能力自愈Self-healing。Agent执行任务时出错了怎么办早期任务失败等人工处理。现在Agent可以自己——回退— 回到上一步换个策略重试降级— 如果Plan A不行自动切换到Plan B求助— 自己搞不定时主动向其他Agent或人类求助学习— 记住这次失败下次避免类似错误这就像一个有经验的员工——新人遇到问题会卡住但老手会调整策略、找同事帮忙、换个方法再试。4.5 Harness时代的实例一个典型的Harness系统主AgentMain Agent— 负责理解用户意图调度子Agent整合结果。它是整个系统的大脑。子AgentSub-Agent— 被主Agent调度执行具体任务。比如Coding Agent写代码Research Agent做调研。每个子Agent是隔离的有自己的上下文和生命周期。Skill— 预制的工作流。比如代码审查Skill包含了整个Review流程的最佳实践。MCP工具— 底层能力。数据库访问、文件操作、搜索等。Cron— 定时任务系统。让Agent不需要人盯着也能按时干活。人在回路— 发消息、写代码等敏感操作需要人工确认。用户只需要说一句话整个Harness系统就会自动编排、调度、执行、回报。4.6 Harness时代的本质Harness解决的核心问题是多Agent系统的编排与治理。当AI的能力足够强之后瓶颈不再是单个Agent能做什么而是如何让多个Agent高效、安全、可控地协作。这就像从个人贡献者到技术管理者的转变IC单Agent关注的是我能不能做好这件事ManagerHarness关注的是团队多Agent能不能高效、高质量地交付两种能力完全不同。前者需要技术深度后者需要系统设计和治理能力。第五章 四层的关系不是替代是叠加5.1 协议栈类比理解这四层演进最直观的方式是把它类比为网络协议栈┌─────────────────────────────────┐│ Harness应用层 │ 意图表达 → 多Agent编排与治理├─────────────────────────────────┤│ Skill/Agent传输层 │ 工作流编排 → 方法论与策略├─────────────────────────────────┤│ MCP/Tool网络层 │ 工具调用 → 能力接入├─────────────────────────────────┤│ Prompt数据链路层 │ 指令编码 → 人机沟通└─────────────────────────────────┘每一层依赖下层的支撑同时为上层提供服务没有Prompt模型都不知道你要它做什么没有MCP/Tool模型只能动嘴不能动手没有Skill/Agent模型没有方法论每件事都要人从头编排没有Harness多个Agent各自为战无法协作同时上层并不取代下层即便到了Harness时代你依然需要写好Prompt只是这件事被Skill封装了即便有了Agent你依然需要工具调用只是Agent替你决定调哪个即便有了Harness每个Agent内部依然在做推理和规划5.2 人的介入点上移四层演进的趋势用一句话概括人的介入点从「操作层」持续上移到「意图层」。层次人做什么模型做什么类比Prompt精心措辞提问回答问题的专家教授答疑MCP/Tool挑工具、写调用按指令执行的操作员实习生跑腿Skill/Agent定义目标和边界规划执行反思的项目经理项目经理带项目Harness描述想要什么多Agent协作交付的团队CEO管公司在Prompt时代人要细化到怎么说在Harness时代人只需要说什么。这和人类社会的管理演进一样微观管理Micromanagement→ 你告诉下属每一步怎么做过程管理Process Management→ 你定义流程和规范目标管理MBO/OKR→ 你定义目标和约束过程交给团队每一层人都在放手更多细节同时掌控更核心的决策。第六章 还没解决的问题讲到这里容易给人一种一切顺利、问题已解的错觉。但现实远没有那么乐观。每一个时代都有它的未解之痛。6.1 Prompt时代的遗留问题Prompt Injection— 恶意指令可以通过Prompt注入劫持模型行为。这是一个安全层面的根本性问题直到今天也没有完美解决。Prompt的脆弱性— 同一个Prompt换一个模型、甚至换一个版本效果可能天差地别。Prompt Engineering的工程二字含金量存疑。6.2 MCP/Tool的问题工具选择错误— 模型有时会选错工具明明该用搜索却用了数据库查询。模型并不真正理解工具的语义。工具调用链的可靠性— 一个工具调用失败整条链就断了。容错和重试机制远不如传统软件工程成熟。安全边界模糊— 给模型越多的工具权限出事时的后果越严重。一个能执行任意Shell命令的Agent和rm -rf /之间只差一个幻觉。6.3 Skill/Agent的问题过度自信— Agent常常对自己的错误毫无察觉自信满满地输出垃圾结果。反思能力远不如宣传的那样可靠。成本失控— Agent可能陷入死循环不断重试、不断调用工具、不断消耗Token直到你的API账单爆炸。方法论僵化— Skill编码了最佳实践但最佳实践是有时效性的。今天的好方法半年后可能就过时了。Skill的维护成本被严重低估。6.4 Harness的问题可观测性差— 多Agent协作时出了问题很难定位是哪个Agent的锅。调试一个Harness系统比调试一个微服务架构还让人头疼。编排复杂度— 会话式编排听起来美好但自然语言的歧义性注定了误解不可避免。你说调研一下Agent理解成花5分钟搜一下还是花5天做深度研究人机协作的平衡— Human-in-the-loop的度很难拿捏。确认太多人成了瓶颈确认太少等于没有护栏。第七章 下一步我们往哪里去预测未来是危险的但有些趋势已经足够清晰7.1 意图的精确表达从问答到意图表达还有很长的路。当前的自然语言指令太模糊未来的交互可能结合多模态输入— 画个草图AI就知道你要什么UI示例驱动— 给一个参考AI就知道你要什么风格渐进式细化— 先粗略描述AI提问澄清逐步逼近精确意图7.2 Agent的可靠性Agent最大的问题不是能力不足而是不够可靠。未来的突破可能在形式化验证— 用数学方法证明Agent的某些行为是安全的沙箱化执行— Agent在受控环境中运行错误不会扩散置信度校准— Agent知道自己不知道什么不确定时主动求助而不是编造答案7.3 Harness的标准化当前每个Harness框架都是各自为战。未来可能需要Agent间通信协议— 类似MCP但是Agent对Agent编排DSL— 一种描述多Agent协作流程的标准语言可观测性标准— 统一的日志、追踪、指标体系7.4 从工具到伙伴最深远的变化可能是心理层面的我们不再把AI当工具而是当伙伴。工具是什么你拿起来用放下就忘了。伙伴是什么你信任它依赖它和它磨合它会了解你的习惯和偏好。今天一个人的OpenClaw可以记住他的工作习惯、沟通风格、项目上下文——这不是工具该有的属性这是伙伴才有的属性。这种关系的转变可能比任何技术进步都更深刻。结语从学会说话到学会放手回顾这三年的演进我最大的感触是
从Prompt到Harness:三年间,我们驾驭大模型的方式经历了怎样的进化?
发布时间:2026/7/6 4:11:50
想把这三年的变化拆成四个层次来讲Prompt → MCP → Skill → Harness。每一层不是取代上一层而是在上一层的基础上叠加。就像TCP/IP协议栈越往上越接近人的意图越往下越接近机器的执行。第一章 Prompt时代人适应模型2022-20231.1 一切的起点对话即编程2022年11月30日ChatGPT上线。五天一百万用户。两个月一亿用户。那段时间所有人都在做同一件事试探这个模型的边界。给我写一首李白风格的诗用莎士比亚的语气写一段代码注释假如你是一个精神病学家……这些看似好玩的尝试背后隐含着一个深刻的发现大模型的输出质量极度依赖于你输入的方式。同一个问题——Python怎么读文件 → 得到一段基础代码你是一个资深Python工程师请用最佳实践实现一个健壮的文件读取函数处理编码、异常、路径校验附单元测试 → 得到一段生产级代码差距是惊人的。于是Prompt Engineering提示词工程作为一个领域诞生了。1.2 提示词的武器库到2023年中Prompt Engineering已经发展出一套相当成熟的方法论Zero-shot Prompting— 直接问不给示例。最原始的方式但模型足够强时也够用。Few-shot Prompting— 给几个示例让模型照猫画虎。OpenAI的GPT-3论文就证明了短短几个例子效果可以质变。Chain-of-ThoughtCoT— 让模型一步一步思考。2022年1月Google Brain的论文提出简单到令人难以置信只要在Prompt末尾加上Lets think step by step模型在推理任务上的表现就能大幅跃升。这可能是Prompt Engineering历史上性价比最高的发现。ReAct— Reasoning Acting。让模型交替进行思考和行动先分析问题再决定下一步做什么然后观察结果再继续思考。这个范式直接催生了后来的Agent概念。角色扮演— 你是一个资深的xx专家赋予模型一个身份和视角让它的回答更有针对性和一致性。结构化输出— 要求模型以JSON、Markdown表格等格式输出方便下游程序解析。1.3 Prompt时代的本质这些技巧看上去五花八门但都指向同一个现实模型够聪明但我们需要学会怎么跟它说话。这是一种人适应模型的范式。你需要理解模型的脾气——它擅长什么、不擅长什么、什么样的指令格式它理解得最好、什么样的措辞会让它产生幻觉。你像一个驯兽师需要学会用鞭子和糖果让猛兽表演。但鞭子和糖果都有极限。2023年中人们开始碰壁不管Prompt写得多精妙模型也只能「说话」不能「做事」。你让它帮你订机票它会说很抱歉我无法访问外部系统。你让它查今天的天气它会编一个看起来像真的但完全虚构的天气预报。你让它读你电脑上的文件它做不到。Prompt的时代模型是一个有着惊人知识量但被困在玻璃缸里的学者——什么都知道但什么都做不了。于是第二层进化开始了。第二章 MCP与Tool Use时代模型长出手脚2023-20242.1 从Function Calling到工具调用2023年6月OpenAI在GPT-4的更新中引入了Function Calling。这是一个看起来不起眼但意义深远的功能模型不再只能输出文本它还可以输出一个结构化的函数调用请求。什么意思以前你问杭州今天天气怎么样模型会说我无法获取实时天气信息。现在模型可以输出{function: get_weather,arguments: {city: 杭州}}然后你的系统调用天气API把结果返回给模型模型再输出杭州今天多云气温22°C适合出行。模型第一次长出了手脚。这不是简单的搜索增强。搜索增强是把搜索结果塞进上下文模型依然是被动的。Function Calling让模型主动决定需要什么信息、调用什么工具然后根据结果继续推理。这是一个从被动回答到主动行动的质变。2.2 工具生态爆发Function Calling之后工具生态如雨后春笋代码执行器— 让模型写Python代码并实际运行文件系统— 让模型读写本地文件搜索引擎— 让模型实时搜索互联网数据库连接— 让模型查询企业内部数据API网关— 让模型调用各种外部服务OpenAI推出了Plugins生态微软的Copilot全家桶把大模型接入了Office全家桶各种AI X的产品如潮水般涌现。2.3 MCP工具调用的USB协议工具多了问题也来了每家厂商的工具调用格式都不一样。OpenAI有自己的Function Calling格式Google有自己的一套Anthropic也有。每个工具提供方都需要为不同的模型做适配。这是一个典型的N×M问题——N个模型M个工具需要N×M个适配器。2024年底Anthropic提出了MCPModel Context Protocol——模型上下文协议。MCP的核心思想很简单定义一个统一的协议让任何模型都能和任何工具通信。就像USB协议统一了设备接口一样——你不需要为每个设备定制接口只要都遵循USB标准就行。MCP的架构MCP Host— 需要使用工具的应用程序比如Claude Desktop、CursorMCP Client— 和MCP Server通信的协议客户端MCP Server— 提供工具的服务端每个Server暴露一组Tool和Resource这个设计优雅地解耦了模型和工具模型只管我要做什么MCP协议负责怎么和工具通信工具Server负责具体执行什么。此后MCP生态迅速壮大。从数据库连接到文件操作从搜索引擎到企业内部API几乎你能想到的工具都有人做了MCP Server。甚至出现了MCP Server的聚合平台像npm一样安装和使用工具。2.4 Tool Use时代的本质MCP和Tool Use解决了Prompt时代最核心的局限模型不能做事。现在模型可以查天气、写代码、操作文件、调用API——它从一个知识丰富的聊天者变成了一个能干活的助手。但新的问题出现了工具是零散的。就像给一个人配了一整间工具房——锤子、螺丝刀、扳手、电钻应有尽有——但如果你不知道修桌子应该先用哪个、后用哪个、遇到螺丝滑丝怎么办工具再多也白搭。你每次都需要明确告诉模型先查这个API再用那个工具处理数据然后用另一个工具生成报告——工具调用的编排负担仍然在人身上。于是第三层进化开始了。第三章 Skill与Agent时代模型学会方法论2024-20253.1 从给你工具到给你手册Skill这个词在AI领域并没有一个完全统一的定义。但在我看来它的核心含义是Skill 领域知识 工作流编排 工具调用策略如果说工具是零件Skill就是装配手册。不比手册更高级——Skill更像是一个经验丰富的老师傅他不仅知道用什么工具还知道什么时候用、以什么顺序用、遇到意外情况怎么办。举一个具体的例子。假设你要用AI帮你做代码Review只有Prompt的时代你把代码贴给模型说帮我review一下。模型给出一些泛泛的建议常常遗漏关键问题。有了Tool的时代你可以让模型调用Git工具读代码、调用Linter检查格式、调用测试框架运行测试。但你需要一步步告诉它该做什么。有了Skill的时代你只需要说Review这个PRSkill里的代码审查技能会自动分析PR的变更范围和影响逐文件检查代码质量运行静态分析工具检查是否有安全漏洞验证测试覆盖率生成结构化的Review报告你不需要指定每一步因为方法论已经编码在Skill中了。3.2 Agent有策略的执行者Skill解决的是怎么做的问题Agent解决的是做什么和为什么这样做的问题。Agent 感知 规划 行动 反思一个真正的Agent具备感知能力— 理解当前的状态和上下文。不只是接收用户输入还能主动获取信息读文件、查API、搜索网页。规划能力— 把大目标拆解成可执行的步骤。不是机械地执行预设流程而是根据具体情况动态调整策略。行动能力— 调用工具执行操作。写代码、发邮件、改配置、跑测试……反思能力— 检查自己的输出发现错误回退重来。这是Agent和简单脚本最本质的区别——脚本只会傻跑Agent会想想自己做对了没有。2024年Agent框架爆发式增长LangGraph— 把Agent的工作流建模为图Graph支持分支、循环、条件跳转CrewAI— 多Agent协作框架每个Agent有角色和目标AutoGen— 微软出品强调多Agent对话协作OpenClaw— 个人AI助手框架集成Skill、MCP、Cron等能力这些框架的共同目标是让Agent从按指令干活进化为按目标干活。3.3 Agent的顿悟时刻2024年有几个让我印象深刻的Agent时刻Devin— Cognition推出的第一个AI软件工程师。它不仅能写代码还能自己打开浏览器看文档、调试运行错误、自主修复bug。虽然Demo和现实之间有差距但它第一次让人看到了AI自主完成开发任务的可能性。SWE-bench上的突破— AI在真实软件工程任务上的表现快速提升。从最初的几乎无法解决任何问题到解决20%、30%的真实GitHub Issue。Claude的Computer Use— Anthropic让Claude直接操作电脑界面——看屏幕、移动鼠标、点击按钮。这是一种极端的工具调用方式如果所有软件都是工具那操作系统本身就是最大的工具。3.4 Skill时代的本质Skill和Agent解决的核心问题是工具调用的编排。以前人想要一个结果需要自己编排「用什么工具、按什么顺序、异常怎么处理」。现在人只需要给出目标和边界Agent和Skill负责处理中间的所有细节。用管理学的话说我们完成了从微观管理到目标管理的跨越。你不再需要告诉AI每一步做什么你只需要告诉它我想要什么和不要做什么中间的过程它自己搞定。但人真的能完全放手吗显然不能。Agent会犯错会产生幻觉会在错误的方向上越走越远。于是第四层进化登场了。第四章 Harness时代驯服一群智能体2025-4.1 从单兵作战到军团作战Harness英文原意是马具、挽具引申为驾驭、驯服。这个词汇的选择非常精准我们面对的不再是一匹马而是一群马。问题不是怎么骑而是怎么驾驭整个马队。2025年AI使用的核心范式开始从单Agent向多Agent协作迁移Coding Agent Review Agent— 一个写代码一个审查代码。写的人激进查的人保守互相制衡。Research Agent Writer Agent— 一个负责调研收集素材一个负责组织语言写文章。专业分工各展所长。Planner Agent Executor Agent Checker Agent— 规划者分解任务执行者落实细节检查者验证结果。三权分立减少犯错。这不是简单的并行而是有组织的协作——每个Agent有自己的角色、职责、权限和沟通方式。4.2 人在回路Human-in-the-LoopHarness时代最重要的设计原则之一Human-in-the-Loop。完全自主的Agent听起来美好实际很危险。AI会自信满满地犯下人类绝不会犯的错误——删除重要文件、发送错误邮件、花掉不该花的钱。所以Harness架构的核心不是完全自动化而是**关键节点有人把关**Agent写完代码 → 人工Review后再合并Agent发邮件 → 展示草稿人工确认后发送Agent做决策 → 重要的决策需要人工批准非关键路径完全自动化关键路径必须人工确认。这就像公司里的审批流——日常采购部门自己定大额支出必须CEO签字。4.3 会话式编排Harness时代的另一个关键变化编排方式从写代码变成了说话。以前的Agent编排需要写Python脚本、画状态机、定义转移条件。现在你只需要说帮我调研一下Flink在流式数据处理方面的最新进展生成一份报告然后发给团队。系统会自动调度Research Agent去做调研调度Writer Agent来组织报告调度通知Agent发送消息你不需要知道底下有多少个Agent在工作不需要知道它们怎么通信不需要知道它们的Prompt是什么。你只需要用自然语言描述你的意图。这和软件工程的发展轨迹一模一样从机器语言 → 汇编语言 → 高级语言 → 自然语言编程。每一层抽象都让离机器怎么执行更远、离人想什么更近。4.4 自愈与弹性好的Harness还具备一个前沿能力自愈Self-healing。Agent执行任务时出错了怎么办早期任务失败等人工处理。现在Agent可以自己——回退— 回到上一步换个策略重试降级— 如果Plan A不行自动切换到Plan B求助— 自己搞不定时主动向其他Agent或人类求助学习— 记住这次失败下次避免类似错误这就像一个有经验的员工——新人遇到问题会卡住但老手会调整策略、找同事帮忙、换个方法再试。4.5 Harness时代的实例一个典型的Harness系统主AgentMain Agent— 负责理解用户意图调度子Agent整合结果。它是整个系统的大脑。子AgentSub-Agent— 被主Agent调度执行具体任务。比如Coding Agent写代码Research Agent做调研。每个子Agent是隔离的有自己的上下文和生命周期。Skill— 预制的工作流。比如代码审查Skill包含了整个Review流程的最佳实践。MCP工具— 底层能力。数据库访问、文件操作、搜索等。Cron— 定时任务系统。让Agent不需要人盯着也能按时干活。人在回路— 发消息、写代码等敏感操作需要人工确认。用户只需要说一句话整个Harness系统就会自动编排、调度、执行、回报。4.6 Harness时代的本质Harness解决的核心问题是多Agent系统的编排与治理。当AI的能力足够强之后瓶颈不再是单个Agent能做什么而是如何让多个Agent高效、安全、可控地协作。这就像从个人贡献者到技术管理者的转变IC单Agent关注的是我能不能做好这件事ManagerHarness关注的是团队多Agent能不能高效、高质量地交付两种能力完全不同。前者需要技术深度后者需要系统设计和治理能力。第五章 四层的关系不是替代是叠加5.1 协议栈类比理解这四层演进最直观的方式是把它类比为网络协议栈┌─────────────────────────────────┐│ Harness应用层 │ 意图表达 → 多Agent编排与治理├─────────────────────────────────┤│ Skill/Agent传输层 │ 工作流编排 → 方法论与策略├─────────────────────────────────┤│ MCP/Tool网络层 │ 工具调用 → 能力接入├─────────────────────────────────┤│ Prompt数据链路层 │ 指令编码 → 人机沟通└─────────────────────────────────┘每一层依赖下层的支撑同时为上层提供服务没有Prompt模型都不知道你要它做什么没有MCP/Tool模型只能动嘴不能动手没有Skill/Agent模型没有方法论每件事都要人从头编排没有Harness多个Agent各自为战无法协作同时上层并不取代下层即便到了Harness时代你依然需要写好Prompt只是这件事被Skill封装了即便有了Agent你依然需要工具调用只是Agent替你决定调哪个即便有了Harness每个Agent内部依然在做推理和规划5.2 人的介入点上移四层演进的趋势用一句话概括人的介入点从「操作层」持续上移到「意图层」。层次人做什么模型做什么类比Prompt精心措辞提问回答问题的专家教授答疑MCP/Tool挑工具、写调用按指令执行的操作员实习生跑腿Skill/Agent定义目标和边界规划执行反思的项目经理项目经理带项目Harness描述想要什么多Agent协作交付的团队CEO管公司在Prompt时代人要细化到怎么说在Harness时代人只需要说什么。这和人类社会的管理演进一样微观管理Micromanagement→ 你告诉下属每一步怎么做过程管理Process Management→ 你定义流程和规范目标管理MBO/OKR→ 你定义目标和约束过程交给团队每一层人都在放手更多细节同时掌控更核心的决策。第六章 还没解决的问题讲到这里容易给人一种一切顺利、问题已解的错觉。但现实远没有那么乐观。每一个时代都有它的未解之痛。6.1 Prompt时代的遗留问题Prompt Injection— 恶意指令可以通过Prompt注入劫持模型行为。这是一个安全层面的根本性问题直到今天也没有完美解决。Prompt的脆弱性— 同一个Prompt换一个模型、甚至换一个版本效果可能天差地别。Prompt Engineering的工程二字含金量存疑。6.2 MCP/Tool的问题工具选择错误— 模型有时会选错工具明明该用搜索却用了数据库查询。模型并不真正理解工具的语义。工具调用链的可靠性— 一个工具调用失败整条链就断了。容错和重试机制远不如传统软件工程成熟。安全边界模糊— 给模型越多的工具权限出事时的后果越严重。一个能执行任意Shell命令的Agent和rm -rf /之间只差一个幻觉。6.3 Skill/Agent的问题过度自信— Agent常常对自己的错误毫无察觉自信满满地输出垃圾结果。反思能力远不如宣传的那样可靠。成本失控— Agent可能陷入死循环不断重试、不断调用工具、不断消耗Token直到你的API账单爆炸。方法论僵化— Skill编码了最佳实践但最佳实践是有时效性的。今天的好方法半年后可能就过时了。Skill的维护成本被严重低估。6.4 Harness的问题可观测性差— 多Agent协作时出了问题很难定位是哪个Agent的锅。调试一个Harness系统比调试一个微服务架构还让人头疼。编排复杂度— 会话式编排听起来美好但自然语言的歧义性注定了误解不可避免。你说调研一下Agent理解成花5分钟搜一下还是花5天做深度研究人机协作的平衡— Human-in-the-loop的度很难拿捏。确认太多人成了瓶颈确认太少等于没有护栏。第七章 下一步我们往哪里去预测未来是危险的但有些趋势已经足够清晰7.1 意图的精确表达从问答到意图表达还有很长的路。当前的自然语言指令太模糊未来的交互可能结合多模态输入— 画个草图AI就知道你要什么UI示例驱动— 给一个参考AI就知道你要什么风格渐进式细化— 先粗略描述AI提问澄清逐步逼近精确意图7.2 Agent的可靠性Agent最大的问题不是能力不足而是不够可靠。未来的突破可能在形式化验证— 用数学方法证明Agent的某些行为是安全的沙箱化执行— Agent在受控环境中运行错误不会扩散置信度校准— Agent知道自己不知道什么不确定时主动求助而不是编造答案7.3 Harness的标准化当前每个Harness框架都是各自为战。未来可能需要Agent间通信协议— 类似MCP但是Agent对Agent编排DSL— 一种描述多Agent协作流程的标准语言可观测性标准— 统一的日志、追踪、指标体系7.4 从工具到伙伴最深远的变化可能是心理层面的我们不再把AI当工具而是当伙伴。工具是什么你拿起来用放下就忘了。伙伴是什么你信任它依赖它和它磨合它会了解你的习惯和偏好。今天一个人的OpenClaw可以记住他的工作习惯、沟通风格、项目上下文——这不是工具该有的属性这是伙伴才有的属性。这种关系的转变可能比任何技术进步都更深刻。结语从学会说话到学会放手回顾这三年的演进我最大的感触是