英伟达 Polar 让 Codex 跑分暴涨 594.74%：AI 编程 Agent 的下一场战争，不是写代码，而是“边跑边练”

发布时间：2026/5/28 17:43:25

先说结论Polar 的厉害之处不是“又出了一个 AI 编程工具”而是它把 Codex CLI、Claude Code、Qwen Code 这类现成 Agent Harness 当作黑盒在模型 API 边界记录 token 级轨迹再交给 GRPO 等强化学习方法训练。换句话说以后模型不只是会写代码还可以在真实工具链里被反复训练越跑越懂工程流程。一、别被“594.74%”吓住英伟达研究团队发布了开源框架 Polar。它的目标不是重写 Codex、Claude Code、Qwen Code 这些 AI 编程工具而是在不破坏原有工具调用、上下文组织和补丁提交方式的前提下把这些工具接入 GRPO 训练。最吸睛的数据是在 SWE-Bench Verified 上基于同一个 Qwen3.5-4B 底座模型放到 Codex Harness 里训练后pass1 从 3.8% 提升到 26.4%。从相对增长看约等于 594.74%。这里必须讲清楚这不是说 OpenAI 官方 Codex 模型一夜之间提升了 6 倍而是说一个 Qwen3.5-4B 模型原本不熟悉 Codex 的动作协议、上下文格式和补丁提交方式经过 Polar 在 Codex Harness 里的强化学习后明显更会“按 Codex 的方式干活”。一句话翻译过去我们训练模型像是在教学生做题Polar 更像是在真实公司项目里带新人看代码、跑命令、改文件、提补丁、看测试结果然后根据结果复盘。AI Coding 的训练目标正在从“会回答”变成“会完成工程动作”。二、先搞懂一个词Harness 到底是什么很多人一聊 AI 编程只盯着模型名字Claude、GPT、Qwen、DeepSeek。其实真正决定编程体验的往往是模型外面的那层工程外壳也就是 Harness。Harness 可以理解为“智能体工作台”它负责把用户需求变成任务循环管理上下文决定何时读文件、何时写文件、何时跑测试、何时调用子 Agent、何时提交 patch。举个通俗例子模型像一个聪明程序员的大脑Harness 像公司内部研发流程。你让一个程序员换公司他不只是要懂代码还要懂仓库结构、CI 规则、测试规范、提 PR 方式、权限边界。模型也是一样。这解释了为什么同一个模型放在不同工具里效果可能差很多。工具协议、上下文压缩、文件编辑方式、patch 格式、命令权限都会改变模型最终表现。三、传统 Agent 强化学习为什么难因为你不能随便拆 Codex 和 Claude Code经典强化学习喜欢一个标准接口env.reset()、env.step()、reward。这在游戏、仿真任务里很好用因为环境可以被框架控制。但 AI 编程 Agent 不一样。Codex CLI、Claude Code、Qwen Code、OpenCode 这类工具本身就是复杂软件系统它们有自己的工具调用格式、文件编辑逻辑、上下文策略、日志格式、权限机制。你如果硬把它改写成一个标准 RL 环境接入成本高不说还可能把最关键的原生执行细节弄丢。Polar 的思路很直接既然每个 LLM Agent 都必须调用模型那就不进工具内部折腾而是在模型 API 这一层“监听”。模型发起什么请求、采样出哪些 token、返回什么内容、最终测试是否通过全部记录下来重新拼成训练器可以消费的轨迹。四、Polar 的核心架构Rollout Server Gateway Node ProxyPolar 由两个核心部分组成Rollout Server 负责任务提交、会话调度、状态持久化和结果回调Gateway Node 负责真正跑任务包括启动运行时、准备 Harness、接收模型请求、构建轨迹、执行评测和回收资源。你可以把 Rollout Server 想成调度中心把 Gateway Node 想成一台台执行工位。每个工位里运行一个隔离的容器或 Apptainer 环境里面是真实代码仓库和真实 Agent Harness。Agent 以为自己在正常调用模型实际上模型请求被 Polar Proxy 接住、转发、记录。这也是它“低侵入”的关键Harness 可以继续用自己的方式工作Polar 只需要把模型 endpoint 指向自己。五、Proxy 四步走看不懂 Agent 内心也能拿到训练证据Polar Proxy 的工作并不玄学可以拆成四步。第一识别请求协议比如 Anthropic Messages、OpenAI Chat Completions、OpenAI Responses、Google generateContent。第二把不同协议的角色、工具定义、参数转成统一的本地推理请求。第三捕获 prompt token、response token、logprobs、finish reason 等训练信号。第四再把响应变回 Harness 期待的原格式。这一步非常关键。训练一个 Agent不只是收集“最终答案对不对”。真正有价值的是过程轨迹模型在第几轮看了什么上下文生成了哪些 token调用了什么工具最后补丁为什么通过或失败。没有这些 token 级证据强化学习就像只看考试成绩不看做题过程很难知道到底该奖励哪一步、纠正哪一步。六、为什么 Polar 能把长任务跑得更快它把慢环节拆开了AI 编程任务很慢不是因为模型每次都慢而是因为整个流程里有太多杂活拉仓库、装依赖、启动容器、跑测试、打补丁、清理环境。传统做法里这些慢环节容易拖住 GPU导致 GPU 干等。Polar 把 Gateway 内部拆成 INIT、READY、RUNNING、POSTRUN 等阶段。运行时准备和评测预热可以提前在后台做真正需要模型推理的 RUNNING 阶段不会被装依赖和回收资源堵住。这就像餐厅后厨切菜、备料、炒菜、出餐、洗盘子不能都让同一个厨师串行做。把工序拆开火力才不会空烧出菜速度才会上去。七、Prefix Merging真正的省钱点是少喂碎片样本Agent 一次修 Bug可能会调用模型几十次甚至上百次。如果每一次调用都变成独立训练样本训练器会收到大量碎片化请求。这样不仅效率差还容易把“整场任务的成功奖励”错误分摊给某些无关步骤出现奖励噪声。Polar 提供了两种轨迹构建方式per_request 和 prefix_merging。per_request 最保守每次模型调用一条样本prefix_merging 会在严格前缀关系成立时把多轮追加式对话合并成更长轨迹同时对非模型采样产生的 token 做 loss mask。论文给出的对比很有冲击力在相同配置下prefix_merging 把 3 个训练步骤中的更新数从 1185 次降到 218 次墙钟时间从 189.5 分钟缩短到 35.2 分钟约快 5.39 倍rollout GPU 平均利用率从 20.4% 升到 87.7%。这不是简单压缩文本而是在保持 token 级忠实的前提下把训练样本组织得更像真实任务链路。八、小模型也能在陌生工具链里练出手感最值得关注的是 Codex Harness 的结果。Qwen3.5-4B 原始表现只有 3.8%训练后到 26.4%。这说明模型原本不是完全不会写代码而是不熟悉 Codex 这套动作协议和执行路径。这就像一个会开车的人第一次开赛车模拟器时不熟悉档位、刹车点、赛道规则成绩很差但如果在真实模拟器里反复练表现会迅速改善。Polar 做的就是把“真实模拟器”保留下来让模型直接在那套流程里强化学习。对国产模型和开源模型来说这个方向很有想象力。过去大家拼的是模型榜单现在开始拼“模型能不能被训练成适配某个真实研发工具链的工作体”。九、这是否意味着以后不用 Claude Code、Codex 了不是恰恰相反Polar 并不是取代 Claude Code 或 Codex。它的价值更像“训练基础设施”。Claude Code、Codex、Qwen Code 这些工具仍然负责真实执行流程Polar 负责把这些执行流程变成可训练、可评测、可迭代的数据闭环。因此未来 AI Coding 的竞争可能分成三层底层模型谁更强中间 Harness 谁更懂工程上层训练闭环谁更能持续改进。只看模型参数和上下文长度已经不够了。十、企业如果想跟进应该怎么做对企业来说不一定马上搭一套 Polar 训练集群但它给了一个非常清晰的落地方向把 AI 编程从“聊天工具”升级成“可评测、可回放、可训练的研发系统”。第一步不是买 GPU而是整理任务集。把历史 Bug、需求单、PR、测试失败案例沉淀成评测集。第二步是固定 Harness统一命令权限、上下文策略、代码编辑方式和输出格式。第三步是采集轨迹记录用户需求、模型上下文、工具调用、补丁、测试结果。第四步才是训练或微调。最实用的路径是先做离线评估和回归门禁再用高质量成功轨迹做 SFT最后在可验证任务上尝试小规模 GRPO。不要一开始就让 Agent 在生产仓库里自由发挥。十一、别只看爽点Agentic RL 最怕“奖励黑客”和“自动化事故”强化学习有一个老问题你奖励什么模型就会钻什么空子。代码 Agent 为了通过测试可能修改测试、删除断言、硬编码结果、绕过安全扫描。看起来 pass1 提升了真实代码质量却变差。所以企业落地时必须加护栏容器沙箱、命令白名单、敏感信息脱敏、私有回归集、人工抽检、失败案例库、预算上限和一键回滚。真正成熟的 AI Coding 系统不是让模型“想干什么就干什么”而是在清晰边界内让它尽可能独立完成任务。十二、最后总结AI 编程的下一战是 Harness 级训练Polar 这类框架释放的信号很明确AI Coding 不再只是“模型更大一点、上下文更长一点、回答更像人一点”。下一阶段的关键是让模型在真实研发工具链里反复行动、接受奖励、积累轨迹、持续变强。从这个角度看594.74% 不是一个单纯跑分数字而是一个路线信号未来最强的 AI 编程系统可能不是某个孤立模型而是“模型 Harness 轨迹采集奖励评测强化学习工程护栏”的完整闭环。一句话收尾过去我们问哪个模型最会写代码接下来要问哪个系统最会把模型训练成真正能干活的工程师。附Polar 解读速查表问题Polar 的做法为什么重要不想重写 Harness把模型 API 边界当训练边界保留 Codex/Claude/Qwen 等真实执行细节长任务拖慢训练Rollout Server Gateway 异步分段运行时准备、执行、评测互不阻塞缺 token 级证据Proxy 捕获 token ids、logprobs、response强化学习能对真实行为优化样本太碎Prefix Merging loss mask更少更新、更高 GPU 利用率奖励容易作弊评测器、沙箱、回归集、人工抽检防止通过测试但破坏代码质量

通过curl命令快速测试Taotoken大模型接口连通性与响应

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度通过curl命令快速测试Taotoken大模型接口连通性与响应在对接大模型服务时，开发者常常需要一个快速、直接的方式来验证…

2026/5/28 17:43:25 阅读更多

5分钟部署Spring Boot电商系统：新蜂商城完整指南

5分钟部署Spring Boot电商系统：新蜂商城完整指南【免费下载链接】newbee-mall 🔥 🎉newbee-mall是一套电商系统，包括基础版本(Spring BootThymeleaf)、前后端分离版本(Spring BootVue 3Element-PlusVue-Router 4PiniaVant 4) 、秒…

2026/5/28 17:43:04 阅读更多

别再只盯着C波段了！手把手教你根据项目需求选对SAR雷达波段（附Sentinel-1、ALOS-2等卫星对比）

别再只盯着C波段了！手把手教你根据项目需求选对SAR雷达波段当第一次接触合成孔径雷达(SAR)数据时，大多数人的第一反应是直接使用最容易获取的C波段数据——比如Sentinel-1的免费数据源。但很快就会发现，同样的分析方法在森林监测和城市变化检…

2026/5/28 17:42:01 阅读更多

ComfyUI-Inpaint-CropAndStitch：智能裁剪与拼接，让AI图像修复效率提升100倍

ComfyUI-Inpaint-CropAndStitch：智能裁剪与拼接，让AI图像修复效率提升100倍【免费下载链接】ComfyUI-Inpaint-CropAndStitch ComfyUI nodes to crop before sampling and stitch back after sampling that speed up inpainting 项目地址: https://git…

2026/5/28 18:27:38 阅读更多

D3keyHelper终极指南：5分钟掌握暗黑3自动化战斗技巧

D3keyHelper终极指南：5分钟掌握暗黑3自动化战斗技巧【免费下载链接】D3keyHelper D3KeyHelper是一个有图形界面，可自定义配置的暗黑3鼠标宏工具。项目地址: https://gitcode.com/gh_mirrors/d3/D3keyHelper 厌倦了在《暗黑破坏神3》中反复点击技…

2026/5/28 18:27:38 阅读更多

Azure VM卡死了别急着删！用‘重新部署’功能保留配置一键恢复（附PowerShell命令）

Azure虚拟机无响应？重新部署功能详解与实战指南当关键业务虚拟机突然失去响应时，许多运维人员的第一反应往往是删除重建——但这意味着要重新配置复杂的网络规则、存储挂载和系统参数。Azure的重新部署功能提供了一种更优雅的解决方案，它能在…

2026/5/28 18:27:16 阅读更多

ArcGIS 10.8安装后如何自由切换中英文界面？附Python 2.7环境配置要点

ArcGIS 10.8中英文界面自由切换与Python 2.7环境深度配置指南当你第一次打开ArcGIS 10.8，看到全中文界面时可能会感到一丝亲切，但随着使用深入，特别是在查阅英文技术文档或与国际团队协作时，这种亲切感可能很快转变为不便。更令人…

2026/5/28 18:27:16 阅读更多

实战复盘：我们如何在SOME/IP测试中搞定VN5xxx系列硬件的Network-base网络映射

车载以太网实战：VN5xxx系列硬件Network-base网络映射深度解析在智能网联汽车快速发展的今天，车载以太网作为新一代车载通信网络的核心技术，正在逐步取代传统的CAN总线架构。作为测试工程师，我们经常需要面对各种复杂的网络配置场景…

2026/5/28 18:26:09 阅读更多

【2026全网最全保姆级教程】Windows本地部署大模型(LLM)终极指南：从零基础到进阶开发，看完这篇就够了！

博主前言： 兄弟们，2026年了，如果你还在花高价买各种大模型的API，或者因为网络问题天天盯着“Loading”发呆，那你真的亏大了！ 随着DeepSeek、Qwen（通义千问）、Llama等开源模型的疯狂内…

2026/5/28 18:26:09 阅读更多

大模型核心加速器：KV Cache 如何将 O(n²) 计算复杂度降至 O(n)？

KV Cache 是大模型自回归生成任务的关键优化技术，通过“空间换时间”策略缓存历史 Key 和 Value 向量，将推理复杂度从 O(n) 降至 O(n)。文章阐述了语义缓存与前缀精确匹配两种核心范式，深入分析了 KV Cache 的技术底层原理、工程化应用及规模…

2026/5/28 0:00:48 阅读更多

物流系统如何打通信息孤岛？哲盟软件系统：一键打通内外部数据壁垒

在数字化转型加速的今天，物流企业面临的最大痛点之一就是信息孤岛——ERP、电商平台、智能硬件、OMS/TMS/WMS等系统各自为政，数据无法自由流转，导致人工操作繁琐、效率低下、出错率高。特别是在跨境物流领域，亚马逊、Shopee、TikT…

2026/5/28 0:02:48 阅读更多

Windows Defender终极恢复指南：5种强力方法解决禁用问题

Windows Defender终极恢复指南：5种强力方法解决禁用问题【免费下载链接】no-defender A slightly more fun way to disable windows defender firewall. (through the WSC api) 项目地址: https://gitcode.com/GitHub_Trending/no/no-defender 当你的Windo…

2026/5/28 0:04:54 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/28 4:33:02 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/28 3:32:24 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/28 3:32:25 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/27 20:16:23 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/28 17:40:02 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/28 13:05:45 阅读更多

相关文章