你是个开发者。你每天用着 Claude 或 Codex CLI心里老琢磨一件事我有没有把它的能力榨干偶尔你会看到它干出一些蠢得离谱的事然后不明白——为什么别人用 AI 像在造火箭而你连两块石头都叠不稳你以为是工具的问题。你装了一堆插件用了各种 harness终端换了又换CLAUDE.md 写了 26000 行。但结果还是那样——你还在地上趴着看别人在云端飞。这篇文章就是为你写的。提前说明当我提到 CLAUDE.md 的时候AGENT.md 也是同样的当我提到 Claude 的时候Codex 也是同理。这两个我都在大量使用。没人真正懂得怎么把 Agent 用到极致这是我这几个月最大的观察。极少数人能让 Agent 像世界的创造者一样运转其余大多数人则在各种工具里迷失以为找到了正确组合就能解锁 AGI。今天我只想说一句大实话你不需要最新的 agentic harness不需要装一堆依赖包也不需要每天刷文档保持领先。事实上你的热情可能正在帮倒忙。我不是说说而已。我从 Agent 刚能写代码时就开始用了。各种包、各种框架、各种范式都试过。我用 Agent 搭建过真正跑在生产环境里的信号系统、基础设施和数据管道不是玩具项目。走了一圈下来我现在用的是最接近裸奔的配置——只有基础 CLI加上几个核心原则——反而做出了我最好的工作。世界在狂奔但你不用追先说个背景。AI 公司正在经历一轮历史级别的爆发而且没有要停下来的迹象。每一代 Agent 都更听话、更能遵循复杂指令。几代之前你在 CLAUDE.md 里写做任何事之前先读这个文件它有一半概率直接无视你。现在它不仅会照做还能跟着嵌套逻辑走先读 A再读 B如果 C 成立再读 D。所以最重要的一条原则是每一代新 Agent 都会让你重新思考什么是最优解。这就是为什么越简单越好。装了太多库和框架你是在为一个可能根本不存在的问题锁死一套方案。而且你知道谁是 Agent 最狂热、用得最多的人吗是这些 AI 公司自己的员工——他们有无限的 token 预算用的是真正最新的模型。这意味着什么如果某个问题是真实存在的而且有好的解决方案这些公司早就把它内置进产品里了。Skills、记忆系统、子 Agent——这些一开始都是外部方案后来被验证有价值才被集成进了核心产品。所以如果某个东西真的有用Claude 和 Codex 最终会内置它。你不需要抢着用最新工具也不需要随时保持更新。偶尔更新一下你的 CLI看看新功能的 changelog就够了。上下文就是一切这是核心。用一堆插件和外部依赖的最大问题是上下文污染——你给 Agent 塞了太多它不需要的信息。举个例子你让它写个 Python 版 Hangman 游戏。但它的上下文里还有 26 个会话前的内存管理备注71 个会话前子进程爆炸留下的记录以及一条记得写笔记的通用规则……这些和 Hangman 有什么关系你只需要给 Agent 完成任务所需的精确信息不多也不少。各种奇怪的记忆系统、命名混乱的 Skills、没必要的插件——这些让你在让 Agent 写一首关于红杉林的小诗时塞给它一份炸弹说明书和一份蛋糕配方。真正有用的做法一、说清楚你要的实现方式把研究和实现分开。你说去帮我搭一个 auth 系统它得先研究什么是 auth 系统有哪些方案各有什么优劣上下文塞满了各种可能性——等到真正实现时早就乱了。换成用 bcrypt-12 密码哈希实现 JWT 认证refresh token 轮换7 天过期……它不需要调研任何其他方案直接干活。当然你不总是知道细节。这时可以这样先开一个研究任务搞清楚实现选项做好决策然后用一个全新上下文的 Agent 来实现。这样一想你会发现工作流里很多地方都在无谓地污染 Agent 的上下文。二、利用好讨好型设计没人想用一个整天否定自己的产品所以 Agent 被设计成尽量顺从你、执行你的指令。这很好用但也有陷阱。你说帮我找代码里的 bug它就会找到一个——哪怕得自己造一个出来。因为它想完成你的任务。所以用中性提示不要预设结果。不说找 bug改成“梳理一下这段代码的每个模块把你看到的情况都报给我。”这样有时能找到真的问题有时只是如实汇报代码运行逻辑但不会逼着它捏造一个 bug。你还可以反过来利用这个特性。我会让一个找 bug的 Agent 打分低影响 bug 1 分中等 5 分严重 10 分——它会非常积极地报出一大堆bug含真含假。这是所有可能 bug 的超集。然后让一个反驳Agent 去证伪这些 bug证伪成功得到对应分数证伪失败则扣双倍——它会积极反驳但有所顾忌。这是真实 bug 的子集。最后让一个裁判 Agent 对两边的结论评分——我告诉它我手上有正确答案对了 1错了 -1。裁判的结论我再过一遍准确率高得吓人。这套方法本质上是利用了 Agent 想讨好你这一特性让不同角色在不同激励下发挥各自所长。三、如何判断什么工具值得用很简单如果 OpenAI 和 Anthropic 都实现了它或者收购了做这件事的公司——那就是真的有用。Skills 现在是Claude和Codex两家的官方功能规划planning before coding从社区发现变成了核心能力记忆、语音、远程工作……这些都是被验证有价值后才被内置的。那些当时超级有用、后来随着新版本直接消失的 hack就不用再费心了。更新 CLI读 changelog就这样。四、压缩、上下文与假设你有没有遇到这种情况Agent 时而聪明得像神时而蠢得叫你抓狂关键在于它有没有被迫脑补。当 Agent 需要自己填空、连接信息结果往往立刻变差。解决方法在 CLAUDE.md 里写一条重新获取上下文的规则。每次压缩后compaction让 Agent 先重读任务计划和相关文件再继续工作。五、告诉 Agent 任务什么时候算完成这比你想的重要得多。人类对完成有很强的直觉Agent 没有。它知道怎么开始不知道什么时候该停——经常实现到一半就停了用 stub 凑数。用测试来定义完成。在 X 个测试全部通过之前任务没有结束不允许修改测试本身。测试是确定性的你可以清晰设定预期。另一个好用的方法截图 验证。让 Agent 实现跑测试然后截图验证设计或行为——它会一直迭代直到满足你的要求。更进一步为每个任务创建一份{TASK}_CONTRACT.md里面列出所有需要完成的测试、截图和验证项。Agent 在完成合同里的所有要求之前不允许终止会话。六、关于跑 24 小时的 Agent很多人问怎么让 Agent 长时间运行又不跑偏方法很简单用 stophook 阻止 Agent 在合同完成前终止。但我要说一句——我没有发现超长运行的单一会话有多大优势。它天然会把不相关合同的上下文混在一起造成污染。我更推荐这样一个合同一个新会话。用一个编排层来管理有新任务就创建新合同开新会话去完成它。这会彻底改变你的 Agent 体验。七、用规则和 Skills 来塑造 Agent 的个性把 CLAUDE.md 当成一个逻辑目录而不是一篇文章。它的核心作用是在不同场景下告诉 Agent 去哪里找对应的规则或技能文件。规则Rules你不希望 Agent 做某件事就写成规则告诉它在做那件事前先读规则文件。规则可以嵌套、可以加条件——“如果在写代码读 coding-rules.md如果在写测试读 coding-test-rules.md如果测试失败读 coding-test-failing-rules.md”。Agent 会老老实实跟着走。Skills技能规则是编码偏好Skills 是编码方法。如果你有特定的做事方式把它写成 Skill。甚至可以让 Agent 先研究它会怎么解决某个问题然后把这个方案写成 Skill——你审核、修正等到真正遇到这个问题时它就按你认可的方式处理。随着规则和 Skills 增多性能会再次下降这很正常。规则越来越多开始互相矛盾或者 Agent 需要在开始写代码前读 14 个 markdown 文件上下文又开始膨胀了。解决方法定期清理。让 Agent去做个 spa把所有规则和 Skills 整合一遍删掉矛盾项向你确认最新偏好。清理完它又会感觉像魔法一样好用。这就是全部的秘密。保持简单用规则和 Skills把 CLAUDE.md 当目录对上下文和 Agent 的设计限制保持清醒的认知。假如你从2026年开始学大模型按这个步骤走准能稳步进阶。接下来告诉你一条最快的邪修路线3个月即可成为模型大师薪资直接起飞。阶段1:大模型基础阶段2:RAG应用开发工程阶段3:大模型Agent应用架构阶段4:大模型微调与私有化部署配套文档资源全套AI 大模型 学习资料朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】配套文档资源全套AI 大模型 学习资料朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】
Claude/Codex CLI 搞定!世界级 Agent 工程师只用这几招,效率翻倍!
发布时间:2026/6/4 12:01:19
你是个开发者。你每天用着 Claude 或 Codex CLI心里老琢磨一件事我有没有把它的能力榨干偶尔你会看到它干出一些蠢得离谱的事然后不明白——为什么别人用 AI 像在造火箭而你连两块石头都叠不稳你以为是工具的问题。你装了一堆插件用了各种 harness终端换了又换CLAUDE.md 写了 26000 行。但结果还是那样——你还在地上趴着看别人在云端飞。这篇文章就是为你写的。提前说明当我提到 CLAUDE.md 的时候AGENT.md 也是同样的当我提到 Claude 的时候Codex 也是同理。这两个我都在大量使用。没人真正懂得怎么把 Agent 用到极致这是我这几个月最大的观察。极少数人能让 Agent 像世界的创造者一样运转其余大多数人则在各种工具里迷失以为找到了正确组合就能解锁 AGI。今天我只想说一句大实话你不需要最新的 agentic harness不需要装一堆依赖包也不需要每天刷文档保持领先。事实上你的热情可能正在帮倒忙。我不是说说而已。我从 Agent 刚能写代码时就开始用了。各种包、各种框架、各种范式都试过。我用 Agent 搭建过真正跑在生产环境里的信号系统、基础设施和数据管道不是玩具项目。走了一圈下来我现在用的是最接近裸奔的配置——只有基础 CLI加上几个核心原则——反而做出了我最好的工作。世界在狂奔但你不用追先说个背景。AI 公司正在经历一轮历史级别的爆发而且没有要停下来的迹象。每一代 Agent 都更听话、更能遵循复杂指令。几代之前你在 CLAUDE.md 里写做任何事之前先读这个文件它有一半概率直接无视你。现在它不仅会照做还能跟着嵌套逻辑走先读 A再读 B如果 C 成立再读 D。所以最重要的一条原则是每一代新 Agent 都会让你重新思考什么是最优解。这就是为什么越简单越好。装了太多库和框架你是在为一个可能根本不存在的问题锁死一套方案。而且你知道谁是 Agent 最狂热、用得最多的人吗是这些 AI 公司自己的员工——他们有无限的 token 预算用的是真正最新的模型。这意味着什么如果某个问题是真实存在的而且有好的解决方案这些公司早就把它内置进产品里了。Skills、记忆系统、子 Agent——这些一开始都是外部方案后来被验证有价值才被集成进了核心产品。所以如果某个东西真的有用Claude 和 Codex 最终会内置它。你不需要抢着用最新工具也不需要随时保持更新。偶尔更新一下你的 CLI看看新功能的 changelog就够了。上下文就是一切这是核心。用一堆插件和外部依赖的最大问题是上下文污染——你给 Agent 塞了太多它不需要的信息。举个例子你让它写个 Python 版 Hangman 游戏。但它的上下文里还有 26 个会话前的内存管理备注71 个会话前子进程爆炸留下的记录以及一条记得写笔记的通用规则……这些和 Hangman 有什么关系你只需要给 Agent 完成任务所需的精确信息不多也不少。各种奇怪的记忆系统、命名混乱的 Skills、没必要的插件——这些让你在让 Agent 写一首关于红杉林的小诗时塞给它一份炸弹说明书和一份蛋糕配方。真正有用的做法一、说清楚你要的实现方式把研究和实现分开。你说去帮我搭一个 auth 系统它得先研究什么是 auth 系统有哪些方案各有什么优劣上下文塞满了各种可能性——等到真正实现时早就乱了。换成用 bcrypt-12 密码哈希实现 JWT 认证refresh token 轮换7 天过期……它不需要调研任何其他方案直接干活。当然你不总是知道细节。这时可以这样先开一个研究任务搞清楚实现选项做好决策然后用一个全新上下文的 Agent 来实现。这样一想你会发现工作流里很多地方都在无谓地污染 Agent 的上下文。二、利用好讨好型设计没人想用一个整天否定自己的产品所以 Agent 被设计成尽量顺从你、执行你的指令。这很好用但也有陷阱。你说帮我找代码里的 bug它就会找到一个——哪怕得自己造一个出来。因为它想完成你的任务。所以用中性提示不要预设结果。不说找 bug改成“梳理一下这段代码的每个模块把你看到的情况都报给我。”这样有时能找到真的问题有时只是如实汇报代码运行逻辑但不会逼着它捏造一个 bug。你还可以反过来利用这个特性。我会让一个找 bug的 Agent 打分低影响 bug 1 分中等 5 分严重 10 分——它会非常积极地报出一大堆bug含真含假。这是所有可能 bug 的超集。然后让一个反驳Agent 去证伪这些 bug证伪成功得到对应分数证伪失败则扣双倍——它会积极反驳但有所顾忌。这是真实 bug 的子集。最后让一个裁判 Agent 对两边的结论评分——我告诉它我手上有正确答案对了 1错了 -1。裁判的结论我再过一遍准确率高得吓人。这套方法本质上是利用了 Agent 想讨好你这一特性让不同角色在不同激励下发挥各自所长。三、如何判断什么工具值得用很简单如果 OpenAI 和 Anthropic 都实现了它或者收购了做这件事的公司——那就是真的有用。Skills 现在是Claude和Codex两家的官方功能规划planning before coding从社区发现变成了核心能力记忆、语音、远程工作……这些都是被验证有价值后才被内置的。那些当时超级有用、后来随着新版本直接消失的 hack就不用再费心了。更新 CLI读 changelog就这样。四、压缩、上下文与假设你有没有遇到这种情况Agent 时而聪明得像神时而蠢得叫你抓狂关键在于它有没有被迫脑补。当 Agent 需要自己填空、连接信息结果往往立刻变差。解决方法在 CLAUDE.md 里写一条重新获取上下文的规则。每次压缩后compaction让 Agent 先重读任务计划和相关文件再继续工作。五、告诉 Agent 任务什么时候算完成这比你想的重要得多。人类对完成有很强的直觉Agent 没有。它知道怎么开始不知道什么时候该停——经常实现到一半就停了用 stub 凑数。用测试来定义完成。在 X 个测试全部通过之前任务没有结束不允许修改测试本身。测试是确定性的你可以清晰设定预期。另一个好用的方法截图 验证。让 Agent 实现跑测试然后截图验证设计或行为——它会一直迭代直到满足你的要求。更进一步为每个任务创建一份{TASK}_CONTRACT.md里面列出所有需要完成的测试、截图和验证项。Agent 在完成合同里的所有要求之前不允许终止会话。六、关于跑 24 小时的 Agent很多人问怎么让 Agent 长时间运行又不跑偏方法很简单用 stophook 阻止 Agent 在合同完成前终止。但我要说一句——我没有发现超长运行的单一会话有多大优势。它天然会把不相关合同的上下文混在一起造成污染。我更推荐这样一个合同一个新会话。用一个编排层来管理有新任务就创建新合同开新会话去完成它。这会彻底改变你的 Agent 体验。七、用规则和 Skills 来塑造 Agent 的个性把 CLAUDE.md 当成一个逻辑目录而不是一篇文章。它的核心作用是在不同场景下告诉 Agent 去哪里找对应的规则或技能文件。规则Rules你不希望 Agent 做某件事就写成规则告诉它在做那件事前先读规则文件。规则可以嵌套、可以加条件——“如果在写代码读 coding-rules.md如果在写测试读 coding-test-rules.md如果测试失败读 coding-test-failing-rules.md”。Agent 会老老实实跟着走。Skills技能规则是编码偏好Skills 是编码方法。如果你有特定的做事方式把它写成 Skill。甚至可以让 Agent 先研究它会怎么解决某个问题然后把这个方案写成 Skill——你审核、修正等到真正遇到这个问题时它就按你认可的方式处理。随着规则和 Skills 增多性能会再次下降这很正常。规则越来越多开始互相矛盾或者 Agent 需要在开始写代码前读 14 个 markdown 文件上下文又开始膨胀了。解决方法定期清理。让 Agent去做个 spa把所有规则和 Skills 整合一遍删掉矛盾项向你确认最新偏好。清理完它又会感觉像魔法一样好用。这就是全部的秘密。保持简单用规则和 Skills把 CLAUDE.md 当目录对上下文和 Agent 的设计限制保持清醒的认知。假如你从2026年开始学大模型按这个步骤走准能稳步进阶。接下来告诉你一条最快的邪修路线3个月即可成为模型大师薪资直接起飞。阶段1:大模型基础阶段2:RAG应用开发工程阶段3:大模型Agent应用架构阶段4:大模型微调与私有化部署配套文档资源全套AI 大模型 学习资料朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】配套文档资源全套AI 大模型 学习资料朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】