标题Tmax: A simple recipe for terminal agents来源arXiv, 2606.23321v1️文章简介研究问题如何构建简单有效的开源数据与强化学习配方以训练高性能小参数终端智能体主要贡献论文提出TMAX开源RL训练配方及包含1.46万环境的大规模数据集使9B模型在Terminal-Bench上超越同类开源模型并逼近闭源前沿水平。重点思路设计组合式合成数据生成管线通过领域、技能、难度等九个结构化轴采样显式控制任务复杂度与多样性避免传统数据过于简单或分布不均的问题。引入分级验证器与非文本工件利用阈值指标、模糊等价及多协议验证替代单一字符串匹配并提供图片音频等输入让智能体通过终端工具处理增加任务真实性。采用DPPO算法配合FP32精度语言模型头进行全异步RL训练解决长程多轮交互中推理与训练logprob不一致导致的数值不稳定及训练崩溃问题。实施软过滤机制跳过零梯度样本无需昂贵的教师模型验证即可保证生成数据的有效性大幅降低大规模环境构建成本。使用mini-SWE-agent作为轻量级交互框架保留中间思考过程相比复杂原生终端接口更适合小模型学习与稳定训练。分析总结TMAX-9B在Terminal-Bench 2.0上达到27%通过率优于32B以下所有开源模型及过往开源RL配方性能接近Claude Haiku 4.5等闭源模型。基于TMAX数据的RL训练展现出强泛化性不仅在不同测试框架下提升至少9分还在SWE-Bench和AIME等非终端任务上取得显著进步证明学到了通用能力而非过拟合。数据质量分析显示TMAX-15K在领域和技能分布上最均衡且难度持续高于现有数据集即使在8次采样下通过率仍最低为RL提供了充足学习信号。训练稳定性实验表明DPPO比GRPO更能防止奖励崩塌大组大小和FP32 LM头对维持Qwen3.5等混合架构模型的训练稳定性至关重要。现有SFT数据可能损害已充分后训练模型的性能直接RL或仅用高质量小规模SFT预热效果更佳挑战了必须先SFT再RL的传统范式。个人观点论文将终端智能体训练从复杂的工程调优回归到“好数据稳算法”的第一性原理解决了合成数据同质化难题优化长程交互的稳定性。
AllenAI:终端智能体强化学习训练配方
发布时间:2026/7/4 3:04:30
标题Tmax: A simple recipe for terminal agents来源arXiv, 2606.23321v1️文章简介研究问题如何构建简单有效的开源数据与强化学习配方以训练高性能小参数终端智能体主要贡献论文提出TMAX开源RL训练配方及包含1.46万环境的大规模数据集使9B模型在Terminal-Bench上超越同类开源模型并逼近闭源前沿水平。重点思路设计组合式合成数据生成管线通过领域、技能、难度等九个结构化轴采样显式控制任务复杂度与多样性避免传统数据过于简单或分布不均的问题。引入分级验证器与非文本工件利用阈值指标、模糊等价及多协议验证替代单一字符串匹配并提供图片音频等输入让智能体通过终端工具处理增加任务真实性。采用DPPO算法配合FP32精度语言模型头进行全异步RL训练解决长程多轮交互中推理与训练logprob不一致导致的数值不稳定及训练崩溃问题。实施软过滤机制跳过零梯度样本无需昂贵的教师模型验证即可保证生成数据的有效性大幅降低大规模环境构建成本。使用mini-SWE-agent作为轻量级交互框架保留中间思考过程相比复杂原生终端接口更适合小模型学习与稳定训练。分析总结TMAX-9B在Terminal-Bench 2.0上达到27%通过率优于32B以下所有开源模型及过往开源RL配方性能接近Claude Haiku 4.5等闭源模型。基于TMAX数据的RL训练展现出强泛化性不仅在不同测试框架下提升至少9分还在SWE-Bench和AIME等非终端任务上取得显著进步证明学到了通用能力而非过拟合。数据质量分析显示TMAX-15K在领域和技能分布上最均衡且难度持续高于现有数据集即使在8次采样下通过率仍最低为RL提供了充足学习信号。训练稳定性实验表明DPPO比GRPO更能防止奖励崩塌大组大小和FP32 LM头对维持Qwen3.5等混合架构模型的训练稳定性至关重要。现有SFT数据可能损害已充分后训练模型的性能直接RL或仅用高质量小规模SFT预热效果更佳挑战了必须先SFT再RL的传统范式。个人观点论文将终端智能体训练从复杂的工程调优回归到“好数据稳算法”的第一性原理解决了合成数据同质化难题优化长程交互的稳定性。