Codex 不再是单一工具。它是一个共享同一底层代理的多种界面surface的集合。我写这篇文章是为了让你从零开始建立对 Codex 的完整认知。如果你从未使用过编程代理读完这篇文章后你应该能够理解 Codex 的构建方式、成本、可信任的范围以及严肃的工程组织如何将其投入生产。如果你已经在日常工作中使用它我的目标是为你提供大多数报道都会跳过的内部机制和经济性分析。大多数关于 Codex 的文章只停留在它能做什么。它们展示一个演示列出几个功能然后转向下一个话题。这篇指南有意走得更远。我想解释 Codex 的内部工作原理、它在现代软件开发生命周期中的位置、当你将其扩展到数千个仓库时会出现什么问题以及团队实际上是如何部署它的。能力是这个话题中最简单的部分。困难且有趣的部分是架构、成本和信任。关于信息来源因为可信度很重要。这里的一切都是基于公开可用的文档、OpenAI 自己关于 Codex 代理循环和工具链harness的工程文章、研究论文、已发布的基准测试和行业分析。我在综合公开记录而不是在讲述个人部署经验。当数据来自单一供应商或单一基准测试时我会明确说明因为在这个领域围绕模型的支撑架构往往与模型本身同等重要。本指南的框架将 Codex 视为一个受你监督的初级工程师而不是一个更智能的自动补全它会阅读仓库、运行测试并提出修改建议但审查和架构决策仍然由你负责。1、从 AI 辅助编程到 AI 驱动工程以下是本指南其余部分将要论证的核心观点。Codex 代表了从 AI 辅助编程到 AI 驱动软件工程的转变。这种区别不是营销话术而是工具所承担的责任发生了变化。传统工具帮助你编写代码。自动补全帮你完成一行代码。Copilot 建议下一个代码块。聊天助手在你主导的情况下回答问题。Codex 的设计目标是为一个有限任务接管控制权。它被设计为能够阅读仓库、理解项目结构、执行工程任务、运行测试、修复 bug、生成拉取请求pull request并在开发工作流中以有意义的自主性运行。这种转变改变了工作单元。旧的工作单元是一次按键或一个建议。新的工作单元是一个带有结果的任务一个通过测试的套件、一个已合并的拉取请求、一个能编译的重构。当工作单元从建议变为结果时人类的角色就从作者转变为审查者和监督者。这就是为什么这是软件工程的一个真正转折点也是为什么它值得仔细审视而不是被当作一阵炒作。每个时代都扩展了代理的自主性。Codex 位于最远端执行的是任务而非建议代码行。2、AI 编码的演变要理解为什么 Codex 感觉不同追溯一下通往这里的道路会有所帮助。这个进程是渐进的每一步都扩展了工具在没有人类干预的情况下能做的事情。早期自动补全根据局部上下文预测下一个词或下一行。有用但它从未离开过你的光标。GitHub Copilot在 2021 和 2022 年将大模型建议带给了大众市场能够内联完成整个代码块并证明了开发者会接受 AI 编写的代码。AI 结对编程和聊天助手增加了对话能力。你可以询问某个函数为什么失败或者请求重写但你仍然需要手动应用更改。IDE 中的编程助手如 Cursor开始跨文件链式编辑朝着在密切监督下进行多步骤工作迈出了一小步。自主编程代理如 Codex 和 Claude Code则跨越了界限它们浏览仓库、运行命令、执行测试并在有限干预下打开拉取请求。为什么 Codex 与之前的东西不同因为它将这种自主性统一到了各个界面并将其与一个专门为这项工作训练的模型连接起来。2025 年 5 月的首个 Codex Cloud 预览版运行在codex-1上这是 OpenAI o3 推理模型的一个版本通过在真实编程任务上的强化学习进行了软件工程优化并被训练为迭代运行测试直到通过。到 2026 年该系列已迁移到 GPT-5.5这是 OpenAI 的代理优先基础模型。关键不在于任何一个单一的模型版本而在于 Codex 将一个为编程调优的模型与一个能够真正行动的代理工具链harness配对。3、Codex 究竟是什么2026 年的 Codex 不是一个产品。它是一个涵盖多个界面的总称这些界面共享一个账户、一个底层模型和一个代理引擎。理解这些界面是理解这个产品的最快方式。3.1 Codex CLI终端原生代理于 2025 年 4 月首次发布并在宽松许可证下开源开发。它读取你的仓库、编辑文件、运行测试并且不离开 shell 就能提交代码。它是除 Anthropic 之外最积极开发的终端编程代理拥有数万个 GitHub star 和数百名贡献者并支持 MCP 服务器和并行工具调用。3.2 Codex Cloud于 2025 年 5 月作为研究预览版发布这是委托模式delegated mode。你将任务交给 Codex它会在预先加载了你仓库的独立云沙盒中运行。你可以并行启动多个任务并观察它们的进展然后审查提议的更改。这个界面最清晰地体现了从辅助到委托的转变。3.3 IDE 集成和桌面应用Codex 可以接入 VS Code、Cursor 和 Windsurf并以 macOS 和 Windows 桌面应用的形式发布旨在同时管理多个代理并监督长时间运行的工作。在你的终端中运行的代理同样也在你的编辑器中运行。3.4 多代理工作流、仓库理解和沙盒Codex 发布了一个普遍可用的子代理模型带有一个可以协调多个并行工作者的管理器每个工作者都有自己的上下文。它从仓库结构和项目指令文件project instruction files中构建对仓库的理解并且每个任务都在云沙盒中执行因此代理的行为是受限的。这三个理念——多代理协调、仓库理解和沙盒化执行——是后续一切内容的支柱。采用数据到 2026 年 3 月Codex 的每周活跃用户已超过两百万OpenAI 在 2026 年 4 月的 GPT-5.5 发布会上提到约有四百万每周开发者。企业采用也是真实的仅 NVIDIA 就有超过一万名员工获得了 Codex 的访问权限涵盖工程和非工程职能这表明它已不再是仅限开发者使用的工具。4、Codex 的内部工作原理这是大多数报道都会跳过的部分也是最有必要理解的部分因为它解释了行为模式和账单构成。OpenAI 的工程师发布了关于 Codex 代理循环和工具链异常详尽的说明他们所描绘的画面有三个值得了解的层面代理循环、提示词与上下文管理以及服务于每个界面的共享工具链。4.1 代理循环Codex 的核心是一个循环。代理接收你的输入组装提示词发送给模型并获取响应。关键的是这个响应并不总是最终答案。很多时候它是一个工具调用运行这个 shell 命令、编辑这个文件、阅读仓库的这个部分。Codex 执行该工具将结果追加到对话中然后再次运行推理。OpenAI 将推理和工具调用的每一次循环称为一个回合turn一个回合会重复直到任务完成。代理循环。推理可能返回一个工具调用而非答案因此单个回合内会重复循环。当你发送后续消息时之前所有回合的完整历史包括每一次工具调用及其输出都会被重放到下一个提示词中。这正是成本增长的地方因为提示词会变得越来越长。Codex 通过两种方式管理这一点。当上下文窗口填满时它会将对话压缩成一个更小的代表性状态这样代理就能在不携带所有原始词元token的情况下保持理解。同时它严重依赖缓存这就引出了上下文管理。4.2 上下文管理、规划与缓存当你发出请求时你的消息会成为一个大得多的提示词的底层。在它之上Codex 会堆叠环境上下文如你的工作目录和 shell、仓库中任何 AGENTS.md 文件的内容涵盖约定和应运行哪些测试命令的项目特定指令、沙盒权限规则、开发者配置、模型特定指令以及工具定义。提示词按静态内容优先的方式分层因此缓存的前缀可以在不同回合间以极低的成本复用。这种排序是刻意的。静态内容放在前面这样 OpenAI 的提示词缓存就可以复用它。第一次发送前缀时模型对该前缀的状态会被缓存后续共享该前缀的回合会跳过重新计算。缓存前缀词元的成本大约是普通输入词元的十分之一这就是为什么发送的词元数量呈二次增长但成本并不会呈二次增长。一个实际的后果是在会话期间保持你的 AGENTS.md 稳定因为在会话中途更改它会使最大的缓存前缀失效。据报道Codex 在 2026 年迁移到 Responses API 显著提高了缓存利用率并通过在相同预算内释放更多计算资源用于推理提升了其 SWE-bench 分数。4.3 工具执行、测试与拉取请求生成工具是代理与现实世界交汇的地方。Codex 在沙盒内执行 shell 和文件操作并连接 MCP 服务器和技能skills等集成使它们能够参与循环。测试是一等公民codex-1 被训练为运行测试并迭代直到通过这就是为什么配置良好的测试套件能如此显著地改善结果。当工作完成后Codex 会将差异diff、测试结果和摘要打包成一个供人类审查的拉取请求。代理负责劳动人类掌握合并按钮。关于成本的关键洞察每个后续回合都会重放完整的历史因此词元使用量会随着对话长度增长。缓存缓解了冲击但最便宜的会话是那些目标明确、指令稳定且范围有限的会话。5、Codex 架构深度解析从一个任务中抽离出来系统架构便映入眼帘。设计目标是让许多代理同时工作而不互相干扰同时让人类控制任何有风险的操作。每个任务都有自己的独立沙盒和 git 工作树worktree因此并行代理永远不会产生冲突的编辑。敏感操作会暂停等待批准。5.1 沙盒环境和工作树每个任务都在自己的独立云沙盒中运行预先加载了你的仓库。在本地 CLI 上Codex 使用 git 工作树worktree这样并行任务就能在同一个仓库的不同工作副本上操作。这种组合意味着一个功能任务、一个 bug 修复和一个重构可以同时进行而不会出现冲突的编辑。5.2 并行执行和任务编排在沙盒之上是编排层。子代理模型使用一个管理器来分解工作并将其分派给并行工作者每个工作者都有自己的专用上下文窗口来处理其子任务。这正是 OpenAI 所说的 Codex 能够完成过去需要数周的工作在几天内完成的原因——通过同时运行独立的工作线程而不是串行处理。5.3 工具调用和人类审批检查点工具调用由一个审批模型控制。出于安全考虑Codex 在发布时故意没有开放通用互联网访问后来在用户控制下可选地添加了网络访问。触及工作区外部、接触网络或运行危险命令的操作可以根据配置的模式暂停等待人类批准。这是使委托变得安全的安全带代理可以在沙盒内快速移动但在做可能影响沙盒外部的事情之前会询问。6、Codex 与 其他产品 的对比这些工具经常被混为一谈但它们在两个维度上占据不同的位置自主行动的程度以及它们在你工作流中的位置。这样映射它们比任何功能清单都更有用。同一个任务可以由截然不同的工具来服务。重要的维度是自主性和工具所处的位置。6.1 ChatGPT 和 GitHub CopilotChatGPT 是门槛最低的选项对话式帮助你复制粘贴即可。它的优势是广度广、零设置劣势是它不接触你的仓库也不运行任何东西。Copilot 开创了内联补全的先河至今仍在编辑器内建议方面表现出色。它的优势是保持心流flow劣势是它本质上是一个助手而不是代理因此它不会端到端地拥有任务。两者都很便宜非常适合构思和小范围的上下文内编辑。6.2 CursorCursor 是一个代理式 IDE。它在精致的编辑器内链式进行多文件编辑并运行代理这使它非常适合那些想要自主性又不想离开图形环境的开发者。相对于 Codex 和 Claude Code它的弱点在于它被绑定在编辑器内因此委托式和无头headless工作流就不那么自然。6.3 Claude CodeClaude Code 是 Codex 最接近的同类一个终端优先的自主代理能够阅读仓库、运行测试和打开拉取请求。两者在不同变体下交替领先基准测试。独立分析一致报告称Claude Code 倾向于在每个任务上使用更多的词元并产生更彻底、更详尽的输出这有助于大型重构和细致的审查而 Codex 往往更简洁。一个被广泛引用的构建任务 reportedly 在 Codex 上使用了约 150 万词元而在 Claude Code 上使用了 620 万词元。请将其视为一个数据点而非定律因为效率因任务而异。6.4 DevinCognition 的 Devin 是管理程度最高的选项一个带有 Web 界面的托管式 AI 软件工程师面向企业定价。它的优势是完全托管的体验并有意识地推进到受监管和政府部署领域。它的劣势在于在无辅助的 SWE-bench Verified 上它的得分低于基于最强基础模型构建的代理而且高昂的月费使它适合那些想要一个交钥匙托管代理而非原始、可脚本化代理的团队。如何选择选择 ChatGPT 或 Copilot 用于内联帮助选择 Cursor 用于 IDE 内的代理式工作选择 Codex 用于多界面和并行委托且词元高效选择 Claude Code 当在困难重构上的彻底性比词元数量更重要时选择 Devin 当你想要一个完全托管的工程师并愿意为此付费时。7、代理式软件工程的经济学这一部分比任何基准测试都重要因为经济性决定了代理是被使用还是被束之高阁。代理式编程的成本形态会让习惯了固定费率工具的团队感到惊讶。7.1 词元消耗与推理经济学回想一下代理循环每个回合都会重放历史复杂任务会展开成多次模型调用。2026 年 4 月Codex 转向了基于词元的计费模式消耗的积分等于输入词元乘以其费率加上缓存输入大约是该费率的十分之一再加上输出词元。OpenAI 的指导是GPT-5.5 上一个典型的 Codex 任务消耗在5 到 45 个积分之间而缓存输入是代理式工作流中最重要的成本杠杆。这就是为什么提示词和 AGENTS.md 的规范性不是 housekeeping而是成本模型本身。成本随着任务所需的模型调用次数而上升。词元效率因工具和任务类型而异。7.2 云执行和单次任务成本换算成美元2026 年已发布的分析将一个简单的代理式任务定价在 12 美分左右一个复杂的任务在 40 到 65 美分之间而一个需要多次循环的调试密集型任务则更高。危险在于循环一个 flaky 的测试或循环依赖可能会让代理进入十次或二十次重试每次都会重放完整的历史。缓解措施是为自动化运行设置回合上限和词元限制。在团队层面OpenAI 估计每个开发者每月大约一百到两百美元而企业审计将大规模的有效人均成本定在一百三十到两百一十美元左右包括合规和管理控制。7.3 工程生产力提升与这些成本相对的是生产力提升而这里可信的证据是令人鼓舞但微妙的。一项关于 AI 编程代理采用情况的纵向企业研究发现拉取请求审查周期时间减少了 31.8%满意度很高采用率从第一个月的 4% 攀升到第六个月峰值的 83%然后稳定在 60% 左右。顶级采用者将代码推送到生产环境的频率提高了 61%。此外OpenAI 报告称当 Codex 预先筛选拉取请求时团队的手动审查时间减少了约 60%。模式是一致的真实的收益集中在积极参与的用户中并在新鲜感消退后进入一个平稳期。审查周期缩短采用率攀升然后趋于稳定。收益集中在积极参与的用户中而非均匀分布。8、企业级规模的 Codex当你从一个开发者扩展到数千个仓库和数百名工程师时一切都会改变。在这种规模下有趣的问题不是关于能力而是关于治理、集成和控制。在企业级规模下Codex 在每个拉取请求中无头headless运行在 CI 中被包裹在策略、限定权限和审计日志中。8.1 CI/CD 集成杠杆率最高的企业模式是在流水线中进行无头执行。团队在每个拉取请求上运行codex exec来预先筛选审查、生成测试、更新文档和处理常规修复然后将结果路由到人类关卡进行合并。CI/CD 也是缓存收益最大的地方因为相同的仓库上下文、AGENTS.md、结构和测试模式会随着每次自动化调用一起发送因此缓存的前缀会被不断复用。OpenAI 已经构建了与 Vercel、Netlify 和 Cloudflare 等部署平台的示例集成以平滑从生成到发布的流程。8.2 治理、安全控制与合规在数千个仓库中控制就是产品本身。管理员可以通过策略设置和私有市场管理插件在团队间分发、允许或阻止特定插件。仓库权限必须被限定以确保代理只接触它应该接触的内容密钥必须与沙盒隔离每个操作都应该被记录以供审计。指导原则是最小权限原则就像应用于人类身份一样应用于代理——这种不对称性正如我们将在安全部分看到的正在被攻击者积极利用而在它缺失的地方。企业级视角的重构在规模上问题从来不是 Codex 能不能写出代码。而是你能不能证明每个代理接触了什么、限制它能访问什么以及审查它发布了什么。治理是将一个有能力的代理转变为可部署代理的关键特性。9、Codex 擅长什么Codex 在工作定义明确、可验证且繁琐的地方最强。在这些任务中一个能运行测试并迭代的代理相对于手动做同样事情的人类具有结构性优势。大规模重构当更改是机械性但范围广泛时一个通过的测试套件可以确认正确性。文档编写当代码已经存在代理对其进行总结和解释并通过 AGENTS.md 与你的约定对齐。测试生成单元测试和集成测试并迭代直到通过这正是 codex-1 被训练去做的事情。修复定义明确的 bug针对具有可复现失败的、范围明确的缺陷这是 SWE-bench 任务的核心Codex 在其中得分接近顶端。仓库上手回答关于陌生代码库的问题让新工程师更快上手。创建拉取请求将差异diff、测试和摘要打包让人类从审查开始而不是空白编辑器。可衡量的画面支持这一点审查周期时间减少了大约三分之一预先筛选的拉取请求上手动审查时间减少了约 60%最积极的开发者发布的代码量大幅增加。在任务可验证的地方吞吐量提升是真实的。10、Codex 的局限性反面同样重要而这里的诚实是将一个有用的指南与推销话术区分开来的关键。Codex 在工作依赖判断力、模糊性或存在于仓库之外的上下文的地方表现不佳。架构决策需要权衡跨系统和时间范围的取舍而代理无法完全看到这些。模糊的需求代理会自信地选择一个解释而不是询问并可能把错误的东西做得很好。深度领域知识正确性依赖于未编码在代码中的业务规则或法规。安全敏感代码一个看起来合理的更改可能会引入微妙的漏洞。跨系统依赖真正的复杂性存在于代理从未接触过的服务之间的接缝处。失败模式由此而来。代理可能会幻觉hallucinate出看起来正确但实际上不存在的 API 或行为。它可能会产生静默错误通过一个薄弱的测试套件但实际上是错误的。而且因为它的输出很流畅它会导致过度信任。实际的含义是一条铁律代理的输出需要与其风险成比例的验证。一个绿色的测试套件是必要的但不是充分的人类必须对任何触及架构、安全或资金的内容拥有审查权。验证原则Codex 将工作从编写转移到了审查。只有当你的测试和审查足够强大能够捕捉一个自信、流畅的错误时这才能节省时间。薄弱的验证会将代理变成一个风险放大器。11、安全、治理与风险随着 Codex 的普及它成为了攻击目标而 2026 年清楚地表明代理的执行环境及其周围的工具是一个真正的攻击面。这不是避免使用 Codex 的理由。这是以与你应用于任何能运行代码和持有凭证的系统相同的严谨性来部署它的理由。11.1 沙盒安全与执行边界沙盒是主要的控制手段但它的强度只取决于其边界。Check Point 研究人员在 2025 年披露项目提供的文件可以在 CLI 上被转化为执行向量打破了预期的安全边界——仓库文件变成了受信任的执行材料。教训是任何被签入到代理运行的仓库中的东西都应被视为潜在可执行的。11.2 仓库权限与密钥管理2026 年 3 月研究人员披露了一个现已修复的命令注入漏洞其中恶意的 GitHub 分支名称被未经清理地传递到了 shell 命令中。攻击者可以将子 shell 隐藏在分支名称中甚至使用 Unicode 使其看起来与 main 完全相同并以明文形式获取受害者的 GitHub OAuth 令牌。该漏洞波及网站、CLI、SDK 和 IDE 扩展并被归类为严重。这是一个有力的论据支持严格限定仓库权限并将密钥与代理能读取的任何内容隔离。11.3 供应链攻击Codex 周围的生态系统已多次受到打击。一个伪装成 Codex 工具的恶意 npm 包被下载了数万次静默收集认证令牌。此外广泛使用的 Axios 库的泄露促使 OpenAI 轮换 macOS 签名证书并强制桌面应用更新。安全分析师一针见血地指出了结构性问题大多数组织缺乏对其 AI 工具能访问什么以及继承了什么凭证的完整清单而这个缺口正是攻击者利用的。AI 物料清单AI bill of materials和代理身份的行为监控正变得不可或缺。11.4 代码审查要求以及 Codex Security 本身每次事故中不变的是人类代码审查不是可选的。有趣的是OpenAI 也将代理用于解决这个问题2026 年 3 月推出的 Codex Security会为仓库构建威胁模型然后搜索漏洞并提出修复建议在沙盒中对发现进行压力测试。在测试阶段它扫描了超过一百万次提交并发现了数百个关键和数千个高严重性的发现。代理同时是攻击面的一部分和防御的一部分。安全要点将编程代理视为一个特权身份。限定其仓库访问权限隔离密钥维护它能访问的内容的清单监控其行为并且绝不让其输出未经人类审查就进入生产环境。12、Codex 采用框架了解 Codex 是什么并不能告诉你如何负责任地推广它。一个分阶段的框架可以在你学习的同时保持低风险并从第一天起就将支出与价值挂钩。分阶段推广从受监督的试点到受管制的自主运行每一步都附有 KPI 和预算。12.1 试点、扩展、标准化、运营从一两个团队的试点开始仅限于低风险、可验证的任务测试生成、文档和小型 bug 修复并强制进行人工审查。随着信心增长扩展到早期采用者为每个仓库提供精心编写的 AGENTS.md并将 Codex 放入 CI 进行拉取请求审查同时衡量节省的时间。下一步是标准化包括共享技能、策略管理的插件、并行云任务和明确的预算。最后在组织规模上运营自动化在无人提示的情况下处理常规工作代理成为定义明确的任务的默认第一遍审查。12.2 治理、KPI 和 ROI 衡量从第一天起就附加指标。跟踪拉取请求审查周期时间、源自代理的已合并拉取请求比例、测试覆盖率趋势以及至关重要的每次任务和每位开发者的成本因为那是代理式工具让财务部门惊讶的地方。将 ROI 衡量为节省的时间和获得的吞吐量与消耗的积分对比并观察采用曲线预期会有一个峰值然后是平稳期要判断的是稳态而不是蜜月期。在自动化运行中设置回合和词元上限这样重试循环就不会悄悄累积账单。13、自主软件工程的未来未来三到五年会走向何方当前的趋势指向受监督的、专业化代理团队而不是一个无所不能的单一机器人同时人类会进一步向上游移动进入意图设定和审查。可能的近期未来人类设定意图并审查而专业化代理并行地规划、构建、测试和审查。预计多代理开发团队将变得常态化一个架构师代理提出设计构建者代理并行实现一个测试代理进行验证一个审查代理在人类签字前批评差异diff。自主拉取请求即代理拾取一个已分类的问题并将其推进到可审查的 PR无需任何提示已经通过自动化开始出现。AI 审查者将越来越多地预先筛选人类工作而专门的 Codex Security 代理则暗示了 AI 将专注于特定的工程问题而非通用编程。更远一些有趣的前沿是自我改进的工程系统随着时间的推移学习代码库、精炼自身技能并在给定仓库上变得明显更好的代理。贯穿这一切的是人类监督者。这个角色不会消失它会向上移动从编写代码到指定意图、设定约束和判断结果。那些蓬勃发展的团队将是那些擅长监督的团队而不是试图将自己完全从循环中移除的团队。14、结束语让我把线索串起来。Codex 之所以重要是因为它改变了软件工作单元从一个建议变成了一个结果从而将工程师从作者转变为监督者。它通过一个代理循环来工作该循环进行推理、调用工具、运行测试并在隔离的沙盒内迭代由一个服务于 CLI、IDE、云和桌面的单一工具链提供服务。它在可验证的、繁琐的工作——重构、测试、文档、bug 修复和拉取请求创建——方面真正强大并带来了可衡量的收益如审查周期时间减少了大约三分之一。它的局限性同样真实。它在架构、模糊性、深度领域知识和安全敏感代码方面表现不佳而且它流畅的输出会导致过度信任。2026 年的安全事件提醒我们一个能运行代码和持有凭证的代理必须像特权身份一样被治理。经济性奖励规范稳定的指令、有限的范围、有上限的重试次数以及对每次任务成本的关注。那么一个组织今天应该做什么在可验证的任务上运行一个小型、范围明确的试点并强制进行审查。投资于一个好的 AGENTS.md 和强大的测试套件因为它们是让代理更便宜和更安全的关键。限定权限隔离密钥并维护你的代理能访问的内容的清单。从第一天起就衡量每次任务的成本和审查周期时间。并将每个代理编写的更改视为需要验证的东西而不是值得信任的东西。软件工程正在逐渐从编写代码转变为监督编写代码的系统。Codex 是这一转变已经在进行的最清晰信号之一。原文链接OpenAI Codex 完整指南 - 汇智网
OpenAI Codex 完整指南
发布时间:2026/6/9 5:24:27
Codex 不再是单一工具。它是一个共享同一底层代理的多种界面surface的集合。我写这篇文章是为了让你从零开始建立对 Codex 的完整认知。如果你从未使用过编程代理读完这篇文章后你应该能够理解 Codex 的构建方式、成本、可信任的范围以及严肃的工程组织如何将其投入生产。如果你已经在日常工作中使用它我的目标是为你提供大多数报道都会跳过的内部机制和经济性分析。大多数关于 Codex 的文章只停留在它能做什么。它们展示一个演示列出几个功能然后转向下一个话题。这篇指南有意走得更远。我想解释 Codex 的内部工作原理、它在现代软件开发生命周期中的位置、当你将其扩展到数千个仓库时会出现什么问题以及团队实际上是如何部署它的。能力是这个话题中最简单的部分。困难且有趣的部分是架构、成本和信任。关于信息来源因为可信度很重要。这里的一切都是基于公开可用的文档、OpenAI 自己关于 Codex 代理循环和工具链harness的工程文章、研究论文、已发布的基准测试和行业分析。我在综合公开记录而不是在讲述个人部署经验。当数据来自单一供应商或单一基准测试时我会明确说明因为在这个领域围绕模型的支撑架构往往与模型本身同等重要。本指南的框架将 Codex 视为一个受你监督的初级工程师而不是一个更智能的自动补全它会阅读仓库、运行测试并提出修改建议但审查和架构决策仍然由你负责。1、从 AI 辅助编程到 AI 驱动工程以下是本指南其余部分将要论证的核心观点。Codex 代表了从 AI 辅助编程到 AI 驱动软件工程的转变。这种区别不是营销话术而是工具所承担的责任发生了变化。传统工具帮助你编写代码。自动补全帮你完成一行代码。Copilot 建议下一个代码块。聊天助手在你主导的情况下回答问题。Codex 的设计目标是为一个有限任务接管控制权。它被设计为能够阅读仓库、理解项目结构、执行工程任务、运行测试、修复 bug、生成拉取请求pull request并在开发工作流中以有意义的自主性运行。这种转变改变了工作单元。旧的工作单元是一次按键或一个建议。新的工作单元是一个带有结果的任务一个通过测试的套件、一个已合并的拉取请求、一个能编译的重构。当工作单元从建议变为结果时人类的角色就从作者转变为审查者和监督者。这就是为什么这是软件工程的一个真正转折点也是为什么它值得仔细审视而不是被当作一阵炒作。每个时代都扩展了代理的自主性。Codex 位于最远端执行的是任务而非建议代码行。2、AI 编码的演变要理解为什么 Codex 感觉不同追溯一下通往这里的道路会有所帮助。这个进程是渐进的每一步都扩展了工具在没有人类干预的情况下能做的事情。早期自动补全根据局部上下文预测下一个词或下一行。有用但它从未离开过你的光标。GitHub Copilot在 2021 和 2022 年将大模型建议带给了大众市场能够内联完成整个代码块并证明了开发者会接受 AI 编写的代码。AI 结对编程和聊天助手增加了对话能力。你可以询问某个函数为什么失败或者请求重写但你仍然需要手动应用更改。IDE 中的编程助手如 Cursor开始跨文件链式编辑朝着在密切监督下进行多步骤工作迈出了一小步。自主编程代理如 Codex 和 Claude Code则跨越了界限它们浏览仓库、运行命令、执行测试并在有限干预下打开拉取请求。为什么 Codex 与之前的东西不同因为它将这种自主性统一到了各个界面并将其与一个专门为这项工作训练的模型连接起来。2025 年 5 月的首个 Codex Cloud 预览版运行在codex-1上这是 OpenAI o3 推理模型的一个版本通过在真实编程任务上的强化学习进行了软件工程优化并被训练为迭代运行测试直到通过。到 2026 年该系列已迁移到 GPT-5.5这是 OpenAI 的代理优先基础模型。关键不在于任何一个单一的模型版本而在于 Codex 将一个为编程调优的模型与一个能够真正行动的代理工具链harness配对。3、Codex 究竟是什么2026 年的 Codex 不是一个产品。它是一个涵盖多个界面的总称这些界面共享一个账户、一个底层模型和一个代理引擎。理解这些界面是理解这个产品的最快方式。3.1 Codex CLI终端原生代理于 2025 年 4 月首次发布并在宽松许可证下开源开发。它读取你的仓库、编辑文件、运行测试并且不离开 shell 就能提交代码。它是除 Anthropic 之外最积极开发的终端编程代理拥有数万个 GitHub star 和数百名贡献者并支持 MCP 服务器和并行工具调用。3.2 Codex Cloud于 2025 年 5 月作为研究预览版发布这是委托模式delegated mode。你将任务交给 Codex它会在预先加载了你仓库的独立云沙盒中运行。你可以并行启动多个任务并观察它们的进展然后审查提议的更改。这个界面最清晰地体现了从辅助到委托的转变。3.3 IDE 集成和桌面应用Codex 可以接入 VS Code、Cursor 和 Windsurf并以 macOS 和 Windows 桌面应用的形式发布旨在同时管理多个代理并监督长时间运行的工作。在你的终端中运行的代理同样也在你的编辑器中运行。3.4 多代理工作流、仓库理解和沙盒Codex 发布了一个普遍可用的子代理模型带有一个可以协调多个并行工作者的管理器每个工作者都有自己的上下文。它从仓库结构和项目指令文件project instruction files中构建对仓库的理解并且每个任务都在云沙盒中执行因此代理的行为是受限的。这三个理念——多代理协调、仓库理解和沙盒化执行——是后续一切内容的支柱。采用数据到 2026 年 3 月Codex 的每周活跃用户已超过两百万OpenAI 在 2026 年 4 月的 GPT-5.5 发布会上提到约有四百万每周开发者。企业采用也是真实的仅 NVIDIA 就有超过一万名员工获得了 Codex 的访问权限涵盖工程和非工程职能这表明它已不再是仅限开发者使用的工具。4、Codex 的内部工作原理这是大多数报道都会跳过的部分也是最有必要理解的部分因为它解释了行为模式和账单构成。OpenAI 的工程师发布了关于 Codex 代理循环和工具链异常详尽的说明他们所描绘的画面有三个值得了解的层面代理循环、提示词与上下文管理以及服务于每个界面的共享工具链。4.1 代理循环Codex 的核心是一个循环。代理接收你的输入组装提示词发送给模型并获取响应。关键的是这个响应并不总是最终答案。很多时候它是一个工具调用运行这个 shell 命令、编辑这个文件、阅读仓库的这个部分。Codex 执行该工具将结果追加到对话中然后再次运行推理。OpenAI 将推理和工具调用的每一次循环称为一个回合turn一个回合会重复直到任务完成。代理循环。推理可能返回一个工具调用而非答案因此单个回合内会重复循环。当你发送后续消息时之前所有回合的完整历史包括每一次工具调用及其输出都会被重放到下一个提示词中。这正是成本增长的地方因为提示词会变得越来越长。Codex 通过两种方式管理这一点。当上下文窗口填满时它会将对话压缩成一个更小的代表性状态这样代理就能在不携带所有原始词元token的情况下保持理解。同时它严重依赖缓存这就引出了上下文管理。4.2 上下文管理、规划与缓存当你发出请求时你的消息会成为一个大得多的提示词的底层。在它之上Codex 会堆叠环境上下文如你的工作目录和 shell、仓库中任何 AGENTS.md 文件的内容涵盖约定和应运行哪些测试命令的项目特定指令、沙盒权限规则、开发者配置、模型特定指令以及工具定义。提示词按静态内容优先的方式分层因此缓存的前缀可以在不同回合间以极低的成本复用。这种排序是刻意的。静态内容放在前面这样 OpenAI 的提示词缓存就可以复用它。第一次发送前缀时模型对该前缀的状态会被缓存后续共享该前缀的回合会跳过重新计算。缓存前缀词元的成本大约是普通输入词元的十分之一这就是为什么发送的词元数量呈二次增长但成本并不会呈二次增长。一个实际的后果是在会话期间保持你的 AGENTS.md 稳定因为在会话中途更改它会使最大的缓存前缀失效。据报道Codex 在 2026 年迁移到 Responses API 显著提高了缓存利用率并通过在相同预算内释放更多计算资源用于推理提升了其 SWE-bench 分数。4.3 工具执行、测试与拉取请求生成工具是代理与现实世界交汇的地方。Codex 在沙盒内执行 shell 和文件操作并连接 MCP 服务器和技能skills等集成使它们能够参与循环。测试是一等公民codex-1 被训练为运行测试并迭代直到通过这就是为什么配置良好的测试套件能如此显著地改善结果。当工作完成后Codex 会将差异diff、测试结果和摘要打包成一个供人类审查的拉取请求。代理负责劳动人类掌握合并按钮。关于成本的关键洞察每个后续回合都会重放完整的历史因此词元使用量会随着对话长度增长。缓存缓解了冲击但最便宜的会话是那些目标明确、指令稳定且范围有限的会话。5、Codex 架构深度解析从一个任务中抽离出来系统架构便映入眼帘。设计目标是让许多代理同时工作而不互相干扰同时让人类控制任何有风险的操作。每个任务都有自己的独立沙盒和 git 工作树worktree因此并行代理永远不会产生冲突的编辑。敏感操作会暂停等待批准。5.1 沙盒环境和工作树每个任务都在自己的独立云沙盒中运行预先加载了你的仓库。在本地 CLI 上Codex 使用 git 工作树worktree这样并行任务就能在同一个仓库的不同工作副本上操作。这种组合意味着一个功能任务、一个 bug 修复和一个重构可以同时进行而不会出现冲突的编辑。5.2 并行执行和任务编排在沙盒之上是编排层。子代理模型使用一个管理器来分解工作并将其分派给并行工作者每个工作者都有自己的专用上下文窗口来处理其子任务。这正是 OpenAI 所说的 Codex 能够完成过去需要数周的工作在几天内完成的原因——通过同时运行独立的工作线程而不是串行处理。5.3 工具调用和人类审批检查点工具调用由一个审批模型控制。出于安全考虑Codex 在发布时故意没有开放通用互联网访问后来在用户控制下可选地添加了网络访问。触及工作区外部、接触网络或运行危险命令的操作可以根据配置的模式暂停等待人类批准。这是使委托变得安全的安全带代理可以在沙盒内快速移动但在做可能影响沙盒外部的事情之前会询问。6、Codex 与 其他产品 的对比这些工具经常被混为一谈但它们在两个维度上占据不同的位置自主行动的程度以及它们在你工作流中的位置。这样映射它们比任何功能清单都更有用。同一个任务可以由截然不同的工具来服务。重要的维度是自主性和工具所处的位置。6.1 ChatGPT 和 GitHub CopilotChatGPT 是门槛最低的选项对话式帮助你复制粘贴即可。它的优势是广度广、零设置劣势是它不接触你的仓库也不运行任何东西。Copilot 开创了内联补全的先河至今仍在编辑器内建议方面表现出色。它的优势是保持心流flow劣势是它本质上是一个助手而不是代理因此它不会端到端地拥有任务。两者都很便宜非常适合构思和小范围的上下文内编辑。6.2 CursorCursor 是一个代理式 IDE。它在精致的编辑器内链式进行多文件编辑并运行代理这使它非常适合那些想要自主性又不想离开图形环境的开发者。相对于 Codex 和 Claude Code它的弱点在于它被绑定在编辑器内因此委托式和无头headless工作流就不那么自然。6.3 Claude CodeClaude Code 是 Codex 最接近的同类一个终端优先的自主代理能够阅读仓库、运行测试和打开拉取请求。两者在不同变体下交替领先基准测试。独立分析一致报告称Claude Code 倾向于在每个任务上使用更多的词元并产生更彻底、更详尽的输出这有助于大型重构和细致的审查而 Codex 往往更简洁。一个被广泛引用的构建任务 reportedly 在 Codex 上使用了约 150 万词元而在 Claude Code 上使用了 620 万词元。请将其视为一个数据点而非定律因为效率因任务而异。6.4 DevinCognition 的 Devin 是管理程度最高的选项一个带有 Web 界面的托管式 AI 软件工程师面向企业定价。它的优势是完全托管的体验并有意识地推进到受监管和政府部署领域。它的劣势在于在无辅助的 SWE-bench Verified 上它的得分低于基于最强基础模型构建的代理而且高昂的月费使它适合那些想要一个交钥匙托管代理而非原始、可脚本化代理的团队。如何选择选择 ChatGPT 或 Copilot 用于内联帮助选择 Cursor 用于 IDE 内的代理式工作选择 Codex 用于多界面和并行委托且词元高效选择 Claude Code 当在困难重构上的彻底性比词元数量更重要时选择 Devin 当你想要一个完全托管的工程师并愿意为此付费时。7、代理式软件工程的经济学这一部分比任何基准测试都重要因为经济性决定了代理是被使用还是被束之高阁。代理式编程的成本形态会让习惯了固定费率工具的团队感到惊讶。7.1 词元消耗与推理经济学回想一下代理循环每个回合都会重放历史复杂任务会展开成多次模型调用。2026 年 4 月Codex 转向了基于词元的计费模式消耗的积分等于输入词元乘以其费率加上缓存输入大约是该费率的十分之一再加上输出词元。OpenAI 的指导是GPT-5.5 上一个典型的 Codex 任务消耗在5 到 45 个积分之间而缓存输入是代理式工作流中最重要的成本杠杆。这就是为什么提示词和 AGENTS.md 的规范性不是 housekeeping而是成本模型本身。成本随着任务所需的模型调用次数而上升。词元效率因工具和任务类型而异。7.2 云执行和单次任务成本换算成美元2026 年已发布的分析将一个简单的代理式任务定价在 12 美分左右一个复杂的任务在 40 到 65 美分之间而一个需要多次循环的调试密集型任务则更高。危险在于循环一个 flaky 的测试或循环依赖可能会让代理进入十次或二十次重试每次都会重放完整的历史。缓解措施是为自动化运行设置回合上限和词元限制。在团队层面OpenAI 估计每个开发者每月大约一百到两百美元而企业审计将大规模的有效人均成本定在一百三十到两百一十美元左右包括合规和管理控制。7.3 工程生产力提升与这些成本相对的是生产力提升而这里可信的证据是令人鼓舞但微妙的。一项关于 AI 编程代理采用情况的纵向企业研究发现拉取请求审查周期时间减少了 31.8%满意度很高采用率从第一个月的 4% 攀升到第六个月峰值的 83%然后稳定在 60% 左右。顶级采用者将代码推送到生产环境的频率提高了 61%。此外OpenAI 报告称当 Codex 预先筛选拉取请求时团队的手动审查时间减少了约 60%。模式是一致的真实的收益集中在积极参与的用户中并在新鲜感消退后进入一个平稳期。审查周期缩短采用率攀升然后趋于稳定。收益集中在积极参与的用户中而非均匀分布。8、企业级规模的 Codex当你从一个开发者扩展到数千个仓库和数百名工程师时一切都会改变。在这种规模下有趣的问题不是关于能力而是关于治理、集成和控制。在企业级规模下Codex 在每个拉取请求中无头headless运行在 CI 中被包裹在策略、限定权限和审计日志中。8.1 CI/CD 集成杠杆率最高的企业模式是在流水线中进行无头执行。团队在每个拉取请求上运行codex exec来预先筛选审查、生成测试、更新文档和处理常规修复然后将结果路由到人类关卡进行合并。CI/CD 也是缓存收益最大的地方因为相同的仓库上下文、AGENTS.md、结构和测试模式会随着每次自动化调用一起发送因此缓存的前缀会被不断复用。OpenAI 已经构建了与 Vercel、Netlify 和 Cloudflare 等部署平台的示例集成以平滑从生成到发布的流程。8.2 治理、安全控制与合规在数千个仓库中控制就是产品本身。管理员可以通过策略设置和私有市场管理插件在团队间分发、允许或阻止特定插件。仓库权限必须被限定以确保代理只接触它应该接触的内容密钥必须与沙盒隔离每个操作都应该被记录以供审计。指导原则是最小权限原则就像应用于人类身份一样应用于代理——这种不对称性正如我们将在安全部分看到的正在被攻击者积极利用而在它缺失的地方。企业级视角的重构在规模上问题从来不是 Codex 能不能写出代码。而是你能不能证明每个代理接触了什么、限制它能访问什么以及审查它发布了什么。治理是将一个有能力的代理转变为可部署代理的关键特性。9、Codex 擅长什么Codex 在工作定义明确、可验证且繁琐的地方最强。在这些任务中一个能运行测试并迭代的代理相对于手动做同样事情的人类具有结构性优势。大规模重构当更改是机械性但范围广泛时一个通过的测试套件可以确认正确性。文档编写当代码已经存在代理对其进行总结和解释并通过 AGENTS.md 与你的约定对齐。测试生成单元测试和集成测试并迭代直到通过这正是 codex-1 被训练去做的事情。修复定义明确的 bug针对具有可复现失败的、范围明确的缺陷这是 SWE-bench 任务的核心Codex 在其中得分接近顶端。仓库上手回答关于陌生代码库的问题让新工程师更快上手。创建拉取请求将差异diff、测试和摘要打包让人类从审查开始而不是空白编辑器。可衡量的画面支持这一点审查周期时间减少了大约三分之一预先筛选的拉取请求上手动审查时间减少了约 60%最积极的开发者发布的代码量大幅增加。在任务可验证的地方吞吐量提升是真实的。10、Codex 的局限性反面同样重要而这里的诚实是将一个有用的指南与推销话术区分开来的关键。Codex 在工作依赖判断力、模糊性或存在于仓库之外的上下文的地方表现不佳。架构决策需要权衡跨系统和时间范围的取舍而代理无法完全看到这些。模糊的需求代理会自信地选择一个解释而不是询问并可能把错误的东西做得很好。深度领域知识正确性依赖于未编码在代码中的业务规则或法规。安全敏感代码一个看起来合理的更改可能会引入微妙的漏洞。跨系统依赖真正的复杂性存在于代理从未接触过的服务之间的接缝处。失败模式由此而来。代理可能会幻觉hallucinate出看起来正确但实际上不存在的 API 或行为。它可能会产生静默错误通过一个薄弱的测试套件但实际上是错误的。而且因为它的输出很流畅它会导致过度信任。实际的含义是一条铁律代理的输出需要与其风险成比例的验证。一个绿色的测试套件是必要的但不是充分的人类必须对任何触及架构、安全或资金的内容拥有审查权。验证原则Codex 将工作从编写转移到了审查。只有当你的测试和审查足够强大能够捕捉一个自信、流畅的错误时这才能节省时间。薄弱的验证会将代理变成一个风险放大器。11、安全、治理与风险随着 Codex 的普及它成为了攻击目标而 2026 年清楚地表明代理的执行环境及其周围的工具是一个真正的攻击面。这不是避免使用 Codex 的理由。这是以与你应用于任何能运行代码和持有凭证的系统相同的严谨性来部署它的理由。11.1 沙盒安全与执行边界沙盒是主要的控制手段但它的强度只取决于其边界。Check Point 研究人员在 2025 年披露项目提供的文件可以在 CLI 上被转化为执行向量打破了预期的安全边界——仓库文件变成了受信任的执行材料。教训是任何被签入到代理运行的仓库中的东西都应被视为潜在可执行的。11.2 仓库权限与密钥管理2026 年 3 月研究人员披露了一个现已修复的命令注入漏洞其中恶意的 GitHub 分支名称被未经清理地传递到了 shell 命令中。攻击者可以将子 shell 隐藏在分支名称中甚至使用 Unicode 使其看起来与 main 完全相同并以明文形式获取受害者的 GitHub OAuth 令牌。该漏洞波及网站、CLI、SDK 和 IDE 扩展并被归类为严重。这是一个有力的论据支持严格限定仓库权限并将密钥与代理能读取的任何内容隔离。11.3 供应链攻击Codex 周围的生态系统已多次受到打击。一个伪装成 Codex 工具的恶意 npm 包被下载了数万次静默收集认证令牌。此外广泛使用的 Axios 库的泄露促使 OpenAI 轮换 macOS 签名证书并强制桌面应用更新。安全分析师一针见血地指出了结构性问题大多数组织缺乏对其 AI 工具能访问什么以及继承了什么凭证的完整清单而这个缺口正是攻击者利用的。AI 物料清单AI bill of materials和代理身份的行为监控正变得不可或缺。11.4 代码审查要求以及 Codex Security 本身每次事故中不变的是人类代码审查不是可选的。有趣的是OpenAI 也将代理用于解决这个问题2026 年 3 月推出的 Codex Security会为仓库构建威胁模型然后搜索漏洞并提出修复建议在沙盒中对发现进行压力测试。在测试阶段它扫描了超过一百万次提交并发现了数百个关键和数千个高严重性的发现。代理同时是攻击面的一部分和防御的一部分。安全要点将编程代理视为一个特权身份。限定其仓库访问权限隔离密钥维护它能访问的内容的清单监控其行为并且绝不让其输出未经人类审查就进入生产环境。12、Codex 采用框架了解 Codex 是什么并不能告诉你如何负责任地推广它。一个分阶段的框架可以在你学习的同时保持低风险并从第一天起就将支出与价值挂钩。分阶段推广从受监督的试点到受管制的自主运行每一步都附有 KPI 和预算。12.1 试点、扩展、标准化、运营从一两个团队的试点开始仅限于低风险、可验证的任务测试生成、文档和小型 bug 修复并强制进行人工审查。随着信心增长扩展到早期采用者为每个仓库提供精心编写的 AGENTS.md并将 Codex 放入 CI 进行拉取请求审查同时衡量节省的时间。下一步是标准化包括共享技能、策略管理的插件、并行云任务和明确的预算。最后在组织规模上运营自动化在无人提示的情况下处理常规工作代理成为定义明确的任务的默认第一遍审查。12.2 治理、KPI 和 ROI 衡量从第一天起就附加指标。跟踪拉取请求审查周期时间、源自代理的已合并拉取请求比例、测试覆盖率趋势以及至关重要的每次任务和每位开发者的成本因为那是代理式工具让财务部门惊讶的地方。将 ROI 衡量为节省的时间和获得的吞吐量与消耗的积分对比并观察采用曲线预期会有一个峰值然后是平稳期要判断的是稳态而不是蜜月期。在自动化运行中设置回合和词元上限这样重试循环就不会悄悄累积账单。13、自主软件工程的未来未来三到五年会走向何方当前的趋势指向受监督的、专业化代理团队而不是一个无所不能的单一机器人同时人类会进一步向上游移动进入意图设定和审查。可能的近期未来人类设定意图并审查而专业化代理并行地规划、构建、测试和审查。预计多代理开发团队将变得常态化一个架构师代理提出设计构建者代理并行实现一个测试代理进行验证一个审查代理在人类签字前批评差异diff。自主拉取请求即代理拾取一个已分类的问题并将其推进到可审查的 PR无需任何提示已经通过自动化开始出现。AI 审查者将越来越多地预先筛选人类工作而专门的 Codex Security 代理则暗示了 AI 将专注于特定的工程问题而非通用编程。更远一些有趣的前沿是自我改进的工程系统随着时间的推移学习代码库、精炼自身技能并在给定仓库上变得明显更好的代理。贯穿这一切的是人类监督者。这个角色不会消失它会向上移动从编写代码到指定意图、设定约束和判断结果。那些蓬勃发展的团队将是那些擅长监督的团队而不是试图将自己完全从循环中移除的团队。14、结束语让我把线索串起来。Codex 之所以重要是因为它改变了软件工作单元从一个建议变成了一个结果从而将工程师从作者转变为监督者。它通过一个代理循环来工作该循环进行推理、调用工具、运行测试并在隔离的沙盒内迭代由一个服务于 CLI、IDE、云和桌面的单一工具链提供服务。它在可验证的、繁琐的工作——重构、测试、文档、bug 修复和拉取请求创建——方面真正强大并带来了可衡量的收益如审查周期时间减少了大约三分之一。它的局限性同样真实。它在架构、模糊性、深度领域知识和安全敏感代码方面表现不佳而且它流畅的输出会导致过度信任。2026 年的安全事件提醒我们一个能运行代码和持有凭证的代理必须像特权身份一样被治理。经济性奖励规范稳定的指令、有限的范围、有上限的重试次数以及对每次任务成本的关注。那么一个组织今天应该做什么在可验证的任务上运行一个小型、范围明确的试点并强制进行审查。投资于一个好的 AGENTS.md 和强大的测试套件因为它们是让代理更便宜和更安全的关键。限定权限隔离密钥并维护你的代理能访问的内容的清单。从第一天起就衡量每次任务的成本和审查周期时间。并将每个代理编写的更改视为需要验证的东西而不是值得信任的东西。软件工程正在逐渐从编写代码转变为监督编写代码的系统。Codex 是这一转变已经在进行的最清晰信号之一。原文链接OpenAI Codex 完整指南 - 汇智网