先说结论Polar 的厉害之处不是“又出了一个 AI 编程工具”而是它把 Codex CLI、Claude Code、Qwen Code 这类现成 Agent Harness 当作黑盒在模型 API 边界记录 token 级轨迹再交给 GRPO 等强化学习方法训练。换句话说以后模型不只是会写代码还可以在真实工具链里被反复训练越跑越懂工程流程。一、别被“594.74%”吓住英伟达研究团队发布了开源框架 Polar。它的目标不是重写 Codex、Claude Code、Qwen Code 这些 AI 编程工具而是在不破坏原有工具调用、上下文组织和补丁提交方式的前提下把这些工具接入 GRPO 训练。最吸睛的数据是在 SWE-Bench Verified 上基于同一个 Qwen3.5-4B 底座模型放到 Codex Harness 里训练后pass1 从 3.8% 提升到 26.4%。从相对增长看约等于 594.74%。这里必须讲清楚这不是说 OpenAI 官方 Codex 模型一夜之间提升了 6 倍而是说一个 Qwen3.5-4B 模型原本不熟悉 Codex 的动作协议、上下文格式和补丁提交方式经过 Polar 在 Codex Harness 里的强化学习后明显更会“按 Codex 的方式干活”。一句话翻译过去我们训练模型像是在教学生做题Polar 更像是在真实公司项目里带新人看代码、跑命令、改文件、提补丁、看测试结果然后根据结果复盘。AI Coding 的训练目标正在从“会回答”变成“会完成工程动作”。二、先搞懂一个词Harness 到底是什么很多人一聊 AI 编程只盯着模型名字Claude、GPT、Qwen、DeepSeek。其实真正决定编程体验的往往是模型外面的那层工程外壳也就是 Harness。Harness 可以理解为“智能体工作台”它负责把用户需求变成任务循环管理上下文决定何时读文件、何时写文件、何时跑测试、何时调用子 Agent、何时提交 patch。举个通俗例子模型像一个聪明程序员的大脑Harness 像公司内部研发流程。你让一个程序员换公司他不只是要懂代码还要懂仓库结构、CI 规则、测试规范、提 PR 方式、权限边界。模型也是一样。这解释了为什么同一个模型放在不同工具里效果可能差很多。工具协议、上下文压缩、文件编辑方式、patch 格式、命令权限都会改变模型最终表现。三、传统 Agent 强化学习为什么难因为你不能随便拆 Codex 和 Claude Code经典强化学习喜欢一个标准接口env.reset()、env.step()、reward。这在游戏、仿真任务里很好用因为环境可以被框架控制。但 AI 编程 Agent 不一样。Codex CLI、Claude Code、Qwen Code、OpenCode 这类工具本身就是复杂软件系统它们有自己的工具调用格式、文件编辑逻辑、上下文策略、日志格式、权限机制。你如果硬把它改写成一个标准 RL 环境接入成本高不说还可能把最关键的原生执行细节弄丢。Polar 的思路很直接既然每个 LLM Agent 都必须调用模型那就不进工具内部折腾而是在模型 API 这一层“监听”。模型发起什么请求、采样出哪些 token、返回什么内容、最终测试是否通过全部记录下来重新拼成训练器可以消费的轨迹。四、Polar 的核心架构Rollout Server Gateway Node ProxyPolar 由两个核心部分组成Rollout Server 负责任务提交、会话调度、状态持久化和结果回调Gateway Node 负责真正跑任务包括启动运行时、准备 Harness、接收模型请求、构建轨迹、执行评测和回收资源。你可以把 Rollout Server 想成调度中心把 Gateway Node 想成一台台执行工位。每个工位里运行一个隔离的容器或 Apptainer 环境里面是真实代码仓库和真实 Agent Harness。Agent 以为自己在正常调用模型实际上模型请求被 Polar Proxy 接住、转发、记录。这也是它“低侵入”的关键Harness 可以继续用自己的方式工作Polar 只需要把模型 endpoint 指向自己。五、Proxy 四步走看不懂 Agent 内心也能拿到训练证据Polar Proxy 的工作并不玄学可以拆成四步。第一识别请求协议比如 Anthropic Messages、OpenAI Chat Completions、OpenAI Responses、Google generateContent。第二把不同协议的角色、工具定义、参数转成统一的本地推理请求。第三捕获 prompt token、response token、logprobs、finish reason 等训练信号。第四再把响应变回 Harness 期待的原格式。这一步非常关键。训练一个 Agent不只是收集“最终答案对不对”。真正有价值的是过程轨迹模型在第几轮看了什么上下文生成了哪些 token调用了什么工具最后补丁为什么通过或失败。没有这些 token 级证据强化学习就像只看考试成绩不看做题过程很难知道到底该奖励哪一步、纠正哪一步。六、为什么 Polar 能把长任务跑得更快它把慢环节拆开了AI 编程任务很慢不是因为模型每次都慢而是因为整个流程里有太多杂活拉仓库、装依赖、启动容器、跑测试、打补丁、清理环境。传统做法里这些慢环节容易拖住 GPU导致 GPU 干等。Polar 把 Gateway 内部拆成 INIT、READY、RUNNING、POSTRUN 等阶段。运行时准备和评测预热可以提前在后台做真正需要模型推理的 RUNNING 阶段不会被装依赖和回收资源堵住。这就像餐厅后厨切菜、备料、炒菜、出餐、洗盘子不能都让同一个厨师串行做。把工序拆开火力才不会空烧出菜速度才会上去。七、Prefix Merging真正的省钱点是少喂碎片样本Agent 一次修 Bug可能会调用模型几十次甚至上百次。如果每一次调用都变成独立训练样本训练器会收到大量碎片化请求。这样不仅效率差还容易把“整场任务的成功奖励”错误分摊给某些无关步骤出现奖励噪声。Polar 提供了两种轨迹构建方式per_request 和 prefix_merging。per_request 最保守每次模型调用一条样本prefix_merging 会在严格前缀关系成立时把多轮追加式对话合并成更长轨迹同时对非模型采样产生的 token 做 loss mask。论文给出的对比很有冲击力在相同配置下prefix_merging 把 3 个训练步骤中的更新数从 1185 次降到 218 次墙钟时间从 189.5 分钟缩短到 35.2 分钟约快 5.39 倍rollout GPU 平均利用率从 20.4% 升到 87.7%。这不是简单压缩文本而是在保持 token 级忠实的前提下把训练样本组织得更像真实任务链路。八、小模型也能在陌生工具链里练出手感最值得关注的是 Codex Harness 的结果。Qwen3.5-4B 原始表现只有 3.8%训练后到 26.4%。这说明模型原本不是完全不会写代码而是不熟悉 Codex 这套动作协议和执行路径。这就像一个会开车的人第一次开赛车模拟器时不熟悉档位、刹车点、赛道规则成绩很差但如果在真实模拟器里反复练表现会迅速改善。Polar 做的就是把“真实模拟器”保留下来让模型直接在那套流程里强化学习。对国产模型和开源模型来说这个方向很有想象力。过去大家拼的是模型榜单现在开始拼“模型能不能被训练成适配某个真实研发工具链的工作体”。九、这是否意味着以后不用 Claude Code、Codex 了不是恰恰相反Polar 并不是取代 Claude Code 或 Codex。它的价值更像“训练基础设施”。Claude Code、Codex、Qwen Code 这些工具仍然负责真实执行流程Polar 负责把这些执行流程变成可训练、可评测、可迭代的数据闭环。因此未来 AI Coding 的竞争可能分成三层底层模型谁更强中间 Harness 谁更懂工程上层训练闭环谁更能持续改进。只看模型参数和上下文长度已经不够了。十、企业如果想跟进应该怎么做对企业来说不一定马上搭一套 Polar 训练集群但它给了一个非常清晰的落地方向把 AI 编程从“聊天工具”升级成“可评测、可回放、可训练的研发系统”。第一步不是买 GPU而是整理任务集。把历史 Bug、需求单、PR、测试失败案例沉淀成评测集。第二步是固定 Harness统一命令权限、上下文策略、代码编辑方式和输出格式。第三步是采集轨迹记录用户需求、模型上下文、工具调用、补丁、测试结果。第四步才是训练或微调。最实用的路径是先做离线评估和回归门禁再用高质量成功轨迹做 SFT最后在可验证任务上尝试小规模 GRPO。不要一开始就让 Agent 在生产仓库里自由发挥。十一、别只看爽点Agentic RL 最怕“奖励黑客”和“自动化事故”强化学习有一个老问题你奖励什么模型就会钻什么空子。代码 Agent 为了通过测试可能修改测试、删除断言、硬编码结果、绕过安全扫描。看起来 pass1 提升了真实代码质量却变差。所以企业落地时必须加护栏容器沙箱、命令白名单、敏感信息脱敏、私有回归集、人工抽检、失败案例库、预算上限和一键回滚。真正成熟的 AI Coding 系统不是让模型“想干什么就干什么”而是在清晰边界内让它尽可能独立完成任务。十二、最后总结AI 编程的下一战是 Harness 级训练Polar 这类框架释放的信号很明确AI Coding 不再只是“模型更大一点、上下文更长一点、回答更像人一点”。下一阶段的关键是让模型在真实研发工具链里反复行动、接受奖励、积累轨迹、持续变强。从这个角度看594.74% 不是一个单纯跑分数字而是一个路线信号未来最强的 AI 编程系统可能不是某个孤立模型而是“模型 Harness 轨迹采集 奖励评测 强化学习 工程护栏”的完整闭环。一句话收尾过去我们问哪个模型最会写代码接下来要问哪个系统最会把模型训练成真正能干活的工程师。附Polar 解读速查表问题Polar 的做法为什么重要不想重写 Harness把模型 API 边界当训练边界保留 Codex/Claude/Qwen 等真实执行细节长任务拖慢训练Rollout Server Gateway 异步分段运行时准备、执行、评测互不阻塞缺 token 级证据Proxy 捕获 token ids、logprobs、response强化学习能对真实行为优化样本太碎Prefix Merging loss mask更少更新、更高 GPU 利用率奖励容易作弊评测器、沙箱、回归集、人工抽检防止通过测试但破坏代码质量
英伟达 Polar 让 Codex 跑分暴涨 594.74%:AI 编程 Agent 的下一场战争,不是写代码,而是“边跑边练”
发布时间:2026/5/28 17:43:25
先说结论Polar 的厉害之处不是“又出了一个 AI 编程工具”而是它把 Codex CLI、Claude Code、Qwen Code 这类现成 Agent Harness 当作黑盒在模型 API 边界记录 token 级轨迹再交给 GRPO 等强化学习方法训练。换句话说以后模型不只是会写代码还可以在真实工具链里被反复训练越跑越懂工程流程。一、别被“594.74%”吓住英伟达研究团队发布了开源框架 Polar。它的目标不是重写 Codex、Claude Code、Qwen Code 这些 AI 编程工具而是在不破坏原有工具调用、上下文组织和补丁提交方式的前提下把这些工具接入 GRPO 训练。最吸睛的数据是在 SWE-Bench Verified 上基于同一个 Qwen3.5-4B 底座模型放到 Codex Harness 里训练后pass1 从 3.8% 提升到 26.4%。从相对增长看约等于 594.74%。这里必须讲清楚这不是说 OpenAI 官方 Codex 模型一夜之间提升了 6 倍而是说一个 Qwen3.5-4B 模型原本不熟悉 Codex 的动作协议、上下文格式和补丁提交方式经过 Polar 在 Codex Harness 里的强化学习后明显更会“按 Codex 的方式干活”。一句话翻译过去我们训练模型像是在教学生做题Polar 更像是在真实公司项目里带新人看代码、跑命令、改文件、提补丁、看测试结果然后根据结果复盘。AI Coding 的训练目标正在从“会回答”变成“会完成工程动作”。二、先搞懂一个词Harness 到底是什么很多人一聊 AI 编程只盯着模型名字Claude、GPT、Qwen、DeepSeek。其实真正决定编程体验的往往是模型外面的那层工程外壳也就是 Harness。Harness 可以理解为“智能体工作台”它负责把用户需求变成任务循环管理上下文决定何时读文件、何时写文件、何时跑测试、何时调用子 Agent、何时提交 patch。举个通俗例子模型像一个聪明程序员的大脑Harness 像公司内部研发流程。你让一个程序员换公司他不只是要懂代码还要懂仓库结构、CI 规则、测试规范、提 PR 方式、权限边界。模型也是一样。这解释了为什么同一个模型放在不同工具里效果可能差很多。工具协议、上下文压缩、文件编辑方式、patch 格式、命令权限都会改变模型最终表现。三、传统 Agent 强化学习为什么难因为你不能随便拆 Codex 和 Claude Code经典强化学习喜欢一个标准接口env.reset()、env.step()、reward。这在游戏、仿真任务里很好用因为环境可以被框架控制。但 AI 编程 Agent 不一样。Codex CLI、Claude Code、Qwen Code、OpenCode 这类工具本身就是复杂软件系统它们有自己的工具调用格式、文件编辑逻辑、上下文策略、日志格式、权限机制。你如果硬把它改写成一个标准 RL 环境接入成本高不说还可能把最关键的原生执行细节弄丢。Polar 的思路很直接既然每个 LLM Agent 都必须调用模型那就不进工具内部折腾而是在模型 API 这一层“监听”。模型发起什么请求、采样出哪些 token、返回什么内容、最终测试是否通过全部记录下来重新拼成训练器可以消费的轨迹。四、Polar 的核心架构Rollout Server Gateway Node ProxyPolar 由两个核心部分组成Rollout Server 负责任务提交、会话调度、状态持久化和结果回调Gateway Node 负责真正跑任务包括启动运行时、准备 Harness、接收模型请求、构建轨迹、执行评测和回收资源。你可以把 Rollout Server 想成调度中心把 Gateway Node 想成一台台执行工位。每个工位里运行一个隔离的容器或 Apptainer 环境里面是真实代码仓库和真实 Agent Harness。Agent 以为自己在正常调用模型实际上模型请求被 Polar Proxy 接住、转发、记录。这也是它“低侵入”的关键Harness 可以继续用自己的方式工作Polar 只需要把模型 endpoint 指向自己。五、Proxy 四步走看不懂 Agent 内心也能拿到训练证据Polar Proxy 的工作并不玄学可以拆成四步。第一识别请求协议比如 Anthropic Messages、OpenAI Chat Completions、OpenAI Responses、Google generateContent。第二把不同协议的角色、工具定义、参数转成统一的本地推理请求。第三捕获 prompt token、response token、logprobs、finish reason 等训练信号。第四再把响应变回 Harness 期待的原格式。这一步非常关键。训练一个 Agent不只是收集“最终答案对不对”。真正有价值的是过程轨迹模型在第几轮看了什么上下文生成了哪些 token调用了什么工具最后补丁为什么通过或失败。没有这些 token 级证据强化学习就像只看考试成绩不看做题过程很难知道到底该奖励哪一步、纠正哪一步。六、为什么 Polar 能把长任务跑得更快它把慢环节拆开了AI 编程任务很慢不是因为模型每次都慢而是因为整个流程里有太多杂活拉仓库、装依赖、启动容器、跑测试、打补丁、清理环境。传统做法里这些慢环节容易拖住 GPU导致 GPU 干等。Polar 把 Gateway 内部拆成 INIT、READY、RUNNING、POSTRUN 等阶段。运行时准备和评测预热可以提前在后台做真正需要模型推理的 RUNNING 阶段不会被装依赖和回收资源堵住。这就像餐厅后厨切菜、备料、炒菜、出餐、洗盘子不能都让同一个厨师串行做。把工序拆开火力才不会空烧出菜速度才会上去。七、Prefix Merging真正的省钱点是少喂碎片样本Agent 一次修 Bug可能会调用模型几十次甚至上百次。如果每一次调用都变成独立训练样本训练器会收到大量碎片化请求。这样不仅效率差还容易把“整场任务的成功奖励”错误分摊给某些无关步骤出现奖励噪声。Polar 提供了两种轨迹构建方式per_request 和 prefix_merging。per_request 最保守每次模型调用一条样本prefix_merging 会在严格前缀关系成立时把多轮追加式对话合并成更长轨迹同时对非模型采样产生的 token 做 loss mask。论文给出的对比很有冲击力在相同配置下prefix_merging 把 3 个训练步骤中的更新数从 1185 次降到 218 次墙钟时间从 189.5 分钟缩短到 35.2 分钟约快 5.39 倍rollout GPU 平均利用率从 20.4% 升到 87.7%。这不是简单压缩文本而是在保持 token 级忠实的前提下把训练样本组织得更像真实任务链路。八、小模型也能在陌生工具链里练出手感最值得关注的是 Codex Harness 的结果。Qwen3.5-4B 原始表现只有 3.8%训练后到 26.4%。这说明模型原本不是完全不会写代码而是不熟悉 Codex 这套动作协议和执行路径。这就像一个会开车的人第一次开赛车模拟器时不熟悉档位、刹车点、赛道规则成绩很差但如果在真实模拟器里反复练表现会迅速改善。Polar 做的就是把“真实模拟器”保留下来让模型直接在那套流程里强化学习。对国产模型和开源模型来说这个方向很有想象力。过去大家拼的是模型榜单现在开始拼“模型能不能被训练成适配某个真实研发工具链的工作体”。九、这是否意味着以后不用 Claude Code、Codex 了不是恰恰相反Polar 并不是取代 Claude Code 或 Codex。它的价值更像“训练基础设施”。Claude Code、Codex、Qwen Code 这些工具仍然负责真实执行流程Polar 负责把这些执行流程变成可训练、可评测、可迭代的数据闭环。因此未来 AI Coding 的竞争可能分成三层底层模型谁更强中间 Harness 谁更懂工程上层训练闭环谁更能持续改进。只看模型参数和上下文长度已经不够了。十、企业如果想跟进应该怎么做对企业来说不一定马上搭一套 Polar 训练集群但它给了一个非常清晰的落地方向把 AI 编程从“聊天工具”升级成“可评测、可回放、可训练的研发系统”。第一步不是买 GPU而是整理任务集。把历史 Bug、需求单、PR、测试失败案例沉淀成评测集。第二步是固定 Harness统一命令权限、上下文策略、代码编辑方式和输出格式。第三步是采集轨迹记录用户需求、模型上下文、工具调用、补丁、测试结果。第四步才是训练或微调。最实用的路径是先做离线评估和回归门禁再用高质量成功轨迹做 SFT最后在可验证任务上尝试小规模 GRPO。不要一开始就让 Agent 在生产仓库里自由发挥。十一、别只看爽点Agentic RL 最怕“奖励黑客”和“自动化事故”强化学习有一个老问题你奖励什么模型就会钻什么空子。代码 Agent 为了通过测试可能修改测试、删除断言、硬编码结果、绕过安全扫描。看起来 pass1 提升了真实代码质量却变差。所以企业落地时必须加护栏容器沙箱、命令白名单、敏感信息脱敏、私有回归集、人工抽检、失败案例库、预算上限和一键回滚。真正成熟的 AI Coding 系统不是让模型“想干什么就干什么”而是在清晰边界内让它尽可能独立完成任务。十二、最后总结AI 编程的下一战是 Harness 级训练Polar 这类框架释放的信号很明确AI Coding 不再只是“模型更大一点、上下文更长一点、回答更像人一点”。下一阶段的关键是让模型在真实研发工具链里反复行动、接受奖励、积累轨迹、持续变强。从这个角度看594.74% 不是一个单纯跑分数字而是一个路线信号未来最强的 AI 编程系统可能不是某个孤立模型而是“模型 Harness 轨迹采集 奖励评测 强化学习 工程护栏”的完整闭环。一句话收尾过去我们问哪个模型最会写代码接下来要问哪个系统最会把模型训练成真正能干活的工程师。附Polar 解读速查表问题Polar 的做法为什么重要不想重写 Harness把模型 API 边界当训练边界保留 Codex/Claude/Qwen 等真实执行细节长任务拖慢训练Rollout Server Gateway 异步分段运行时准备、执行、评测互不阻塞缺 token 级证据Proxy 捕获 token ids、logprobs、response强化学习能对真实行为优化样本太碎Prefix Merging loss mask更少更新、更高 GPU 利用率奖励容易作弊评测器、沙箱、回归集、人工抽检防止通过测试但破坏代码质量