5月22日如何把Codex用到极致大多数开发者刚接触AI编辑器的时候通常只让他们干一件事写代码。比如让他们检查一下代码库生成一个差异对比diff跑跑测试然后合并一个请求.写代码确实是Codex强项但仔细想想我们在电脑上大部分工作本质上其实都是和代码息息相关执行终端命令浏览网页调用程序接口导出文档或者触发自动化流程。当Codex它触及这种领域的时候他不再是一个狭义上的编程助手而是进化成了一个能帮你搞定电脑上各种工作的全能打功能人。想要让Codex的潜能完全被激发出来我们适合以下的连招能够长期保存记忆的持久对话流在你掌控全局时灵活使用语音输入任务干预和任务排队借助浏览器、电脑操控模型上下文协议服务器以及各种连接器让Codex的手伸向代码库之外当你离开电脑时利用对话流自动化和目标驱动让它继续搬砖熟练使用侧边栏随时审查它生成的代码、文档、幻灯片和其他文件持久对话流持久对话流可以长时间运行coded对话流能多次在你使用的时候始终保持你的工作上下文。随着时间迁移他会记得你之前做过的决定你的个人偏好以及当前进度。如果没有这个功能你每次都得从零开始把这些背景信息喂给他。语音输入语音输入之所以好用是因为他能把你的想法在敲定为文字之前先把你脑子里面最原始、最粗糙的念头捕捉出来任务干预与排队当你把语音输入和对话中的任务直接控制起来的时候它的威力才显示出来当你一个任务正在执行时如果你想当你发现AI跑边的时候需要在他撞南墙之前纠正它这个功能就派上了。比如正在审查网页时你可以一边在测篮上点点点一边直接开口打断它。而任务排队就不一样他不会打断正在执行的内容而是把新任务排队在后任务中你可以这样跟他说等这活干完把预览链接发给这个人审核看看。简单来说干预就是改变当下做的事情而排队是安排他接下来要做的事情随时随地工作随时随地与Codex协同工作的概念彻底打破了必须坐在电脑前才能干活的传统限制。自动化自动化功能能让 Codex按你的设定时间自动化干活Harness工程化1. 上下文管理上下文管理解决的是“AI 应该知道什么”的问题。模型本身没有长期记忆每次调用看到的只是当前上下文窗口里的内容。因此项目规则、目录结构、技术约束、禁止事项等信息不能只停留在口头约定里而要沉淀成 AGENTS.md、CLAUDE.md 或 docs 下的规则文件。好的上下文管理通常是分层的根目录文件提供项目地图专题文档承载详细规范轻量索引帮助 AI 按需查找。这样既能让 AI 看见关键规则又不会把上下文窗口塞满。2. 执行能力执行能力解决的是“AI 能不能动手”的问题。模型本身只能输出文本但 Harness 可以把它连接到终端、文件系统、浏览器、API、MCP 服务和 Skills让 AI 能读代码、改文件、跑测试、看日志、操作页面并根据真实反馈调整下一步。工具不是越多越好。工具越多模型每一步的选择空间越大走错路径的概率也越高。真正有效的 Harness往往是提供少量稳定、通用、可组合的工具让模型自己完成探索和执行。3. 任务编排任务编排解决的是“AI 怎么完成长任务”的问题。复杂需求不能依赖一次性 one-shot 完成而要拆成计划、子任务、验证和交接。常见做法包括 Plan Mode、步进执行、子任务拆分、并行 agent以及用 progress.md 记录当前进度。对长任务来说progress.md 和 git commit 就是 AI 的存档点。即使对话中断、上下文耗尽或模型切换下一轮也能通过读取历史提交和进度文档快速恢复现场。4. 反馈机制反馈机制解决的是“AI 怎么知道自己做对了”的问题。代码看起来合理不代表真的能运行。Harness 需要把验证过程自动化让 AI 在完成任务前主动跑 linter、typecheck、单测、集成测试必要时还要用浏览器截图验证 UI。更进一步可以引入独立的 LLM 评审 Agent让生成代码的 Agent 和评审 Agent 分离。生成者负责实现评审者负责挑错这样更容易发现逻辑漏洞、架构问题和潜在 bug。5. 架构护栏架构护栏解决的是“AI 会不会把项目越改越乱”的问题。AI 会模仿仓库里已有的模式好模式会被放大坏模式也会被放大。因此关键架构规则不能只写在文档里还要变成可执行的检查。常见护栏包括 pre-commit hooks、架构 linter 和 CI gate。它们可以在提交前或合并前自动拦截违规代码例如跨层依赖、文件过大、模块边界被破坏、UI 层直接访问数据库等问题。总结这五个维度共同决定了一个 Harness 是否真正可用上下文管理让 AI 看见规则执行能力让 AI 拥有手脚任务编排让 AI 能接住长任务反馈机制让结果可验证架构护栏让速度不会失控。也就是说Harness 的核心不是让模型更会说而是让模型的推理能力能够稳定、安全地进入工程流程。
5月22日
发布时间:2026/5/22 17:47:35
5月22日如何把Codex用到极致大多数开发者刚接触AI编辑器的时候通常只让他们干一件事写代码。比如让他们检查一下代码库生成一个差异对比diff跑跑测试然后合并一个请求.写代码确实是Codex强项但仔细想想我们在电脑上大部分工作本质上其实都是和代码息息相关执行终端命令浏览网页调用程序接口导出文档或者触发自动化流程。当Codex它触及这种领域的时候他不再是一个狭义上的编程助手而是进化成了一个能帮你搞定电脑上各种工作的全能打功能人。想要让Codex的潜能完全被激发出来我们适合以下的连招能够长期保存记忆的持久对话流在你掌控全局时灵活使用语音输入任务干预和任务排队借助浏览器、电脑操控模型上下文协议服务器以及各种连接器让Codex的手伸向代码库之外当你离开电脑时利用对话流自动化和目标驱动让它继续搬砖熟练使用侧边栏随时审查它生成的代码、文档、幻灯片和其他文件持久对话流持久对话流可以长时间运行coded对话流能多次在你使用的时候始终保持你的工作上下文。随着时间迁移他会记得你之前做过的决定你的个人偏好以及当前进度。如果没有这个功能你每次都得从零开始把这些背景信息喂给他。语音输入语音输入之所以好用是因为他能把你的想法在敲定为文字之前先把你脑子里面最原始、最粗糙的念头捕捉出来任务干预与排队当你把语音输入和对话中的任务直接控制起来的时候它的威力才显示出来当你一个任务正在执行时如果你想当你发现AI跑边的时候需要在他撞南墙之前纠正它这个功能就派上了。比如正在审查网页时你可以一边在测篮上点点点一边直接开口打断它。而任务排队就不一样他不会打断正在执行的内容而是把新任务排队在后任务中你可以这样跟他说等这活干完把预览链接发给这个人审核看看。简单来说干预就是改变当下做的事情而排队是安排他接下来要做的事情随时随地工作随时随地与Codex协同工作的概念彻底打破了必须坐在电脑前才能干活的传统限制。自动化自动化功能能让 Codex按你的设定时间自动化干活Harness工程化1. 上下文管理上下文管理解决的是“AI 应该知道什么”的问题。模型本身没有长期记忆每次调用看到的只是当前上下文窗口里的内容。因此项目规则、目录结构、技术约束、禁止事项等信息不能只停留在口头约定里而要沉淀成 AGENTS.md、CLAUDE.md 或 docs 下的规则文件。好的上下文管理通常是分层的根目录文件提供项目地图专题文档承载详细规范轻量索引帮助 AI 按需查找。这样既能让 AI 看见关键规则又不会把上下文窗口塞满。2. 执行能力执行能力解决的是“AI 能不能动手”的问题。模型本身只能输出文本但 Harness 可以把它连接到终端、文件系统、浏览器、API、MCP 服务和 Skills让 AI 能读代码、改文件、跑测试、看日志、操作页面并根据真实反馈调整下一步。工具不是越多越好。工具越多模型每一步的选择空间越大走错路径的概率也越高。真正有效的 Harness往往是提供少量稳定、通用、可组合的工具让模型自己完成探索和执行。3. 任务编排任务编排解决的是“AI 怎么完成长任务”的问题。复杂需求不能依赖一次性 one-shot 完成而要拆成计划、子任务、验证和交接。常见做法包括 Plan Mode、步进执行、子任务拆分、并行 agent以及用 progress.md 记录当前进度。对长任务来说progress.md 和 git commit 就是 AI 的存档点。即使对话中断、上下文耗尽或模型切换下一轮也能通过读取历史提交和进度文档快速恢复现场。4. 反馈机制反馈机制解决的是“AI 怎么知道自己做对了”的问题。代码看起来合理不代表真的能运行。Harness 需要把验证过程自动化让 AI 在完成任务前主动跑 linter、typecheck、单测、集成测试必要时还要用浏览器截图验证 UI。更进一步可以引入独立的 LLM 评审 Agent让生成代码的 Agent 和评审 Agent 分离。生成者负责实现评审者负责挑错这样更容易发现逻辑漏洞、架构问题和潜在 bug。5. 架构护栏架构护栏解决的是“AI 会不会把项目越改越乱”的问题。AI 会模仿仓库里已有的模式好模式会被放大坏模式也会被放大。因此关键架构规则不能只写在文档里还要变成可执行的检查。常见护栏包括 pre-commit hooks、架构 linter 和 CI gate。它们可以在提交前或合并前自动拦截违规代码例如跨层依赖、文件过大、模块边界被破坏、UI 层直接访问数据库等问题。总结这五个维度共同决定了一个 Harness 是否真正可用上下文管理让 AI 看见规则执行能力让 AI 拥有手脚任务编排让 AI 能接住长任务反馈机制让结果可验证架构护栏让速度不会失控。也就是说Harness 的核心不是让模型更会说而是让模型的推理能力能够稳定、安全地进入工程流程。