标题ESPO: Early-Stopping Proximal Policy Optimization来源arXiv, 2605.29860v1️文章简介研究问题如何解决大模型强化学习训练中错误推理步骤后继续生成导致的计算浪费与梯度噪声问题主要贡献论文提出ESPO算法通过实时检测轨迹失败并提前终止生成在提升数学推理性能的同时节省超20%的训练Token。重点思路设计逐步代理遗憾信号利用采样时已计算的Logits差值衡量当前动作偏离贪婪策略的程度作为失败检测的轻量级指标。采用指数移动平均对遗憾信号进行归一化处理并使用冻结的批次统计量防止未来信息泄露确保因果正确性。构建价值门控停止准则当累积归一化遗憾显著超过Critic估计的价值阈值时触发早停高价值状态允许更大容错空间。将截断轨迹视为吸收态失败并赋予终端惩罚使负TD误差集中在失败点附近避免引入非平稳的逐步奖励偏差。实施自适应Critic预热机制在价值函数稳定前禁用早停规则防止训练初期因价值估计不准导致的误截断。分析总结在7B模型上ESPO全面超越PPO和DAPOAIME24准确率达46.28%且累计Rollout Token减少约22%验证了效率与性能的双重提升。消融实验证实早停收益源于精准的截断位置而非单纯的序列缩短随机截断变体在相似长度下性能显著低于完整ESPO。移除终端失败惩罚导致性能下降且平均生成长度增加证明集中式负反馈比分散惩罚更能有效传递信用分配信号。仅依赖价值或仅依赖遗憾的单一信号停止策略均不如组合策略表明两者携带互补信息缺一不可。ESPO未导致策略熵崩溃反而减缓了熵衰减速率说明该方法消除了错误归因的梯度压力保留了合理的探索空间。误截断率仅为2.7%表明移除失败后噪声带来的收益远大于偶尔错误终止可恢复轨迹的成本。个人观点论文解决长程推理中的信用分配难题不同于依赖昂贵人工标注的过程奖励模型或需额外训练的终止模块它巧妙地将Actor的Logits置信度与Critic的价值估计结合实现了无需外部监督的在线失败检测。
阿里:ESPO早停机制优化LLM推理
发布时间:2026/6/17 12:23:08
标题ESPO: Early-Stopping Proximal Policy Optimization来源arXiv, 2605.29860v1️文章简介研究问题如何解决大模型强化学习训练中错误推理步骤后继续生成导致的计算浪费与梯度噪声问题主要贡献论文提出ESPO算法通过实时检测轨迹失败并提前终止生成在提升数学推理性能的同时节省超20%的训练Token。重点思路设计逐步代理遗憾信号利用采样时已计算的Logits差值衡量当前动作偏离贪婪策略的程度作为失败检测的轻量级指标。采用指数移动平均对遗憾信号进行归一化处理并使用冻结的批次统计量防止未来信息泄露确保因果正确性。构建价值门控停止准则当累积归一化遗憾显著超过Critic估计的价值阈值时触发早停高价值状态允许更大容错空间。将截断轨迹视为吸收态失败并赋予终端惩罚使负TD误差集中在失败点附近避免引入非平稳的逐步奖励偏差。实施自适应Critic预热机制在价值函数稳定前禁用早停规则防止训练初期因价值估计不准导致的误截断。分析总结在7B模型上ESPO全面超越PPO和DAPOAIME24准确率达46.28%且累计Rollout Token减少约22%验证了效率与性能的双重提升。消融实验证实早停收益源于精准的截断位置而非单纯的序列缩短随机截断变体在相似长度下性能显著低于完整ESPO。移除终端失败惩罚导致性能下降且平均生成长度增加证明集中式负反馈比分散惩罚更能有效传递信用分配信号。仅依赖价值或仅依赖遗憾的单一信号停止策略均不如组合策略表明两者携带互补信息缺一不可。ESPO未导致策略熵崩溃反而减缓了熵衰减速率说明该方法消除了错误归因的梯度压力保留了合理的探索空间。误截断率仅为2.7%表明移除失败后噪声带来的收益远大于偶尔错误终止可恢复轨迹的成本。个人观点论文解决长程推理中的信用分配难题不同于依赖昂贵人工标注的过程奖励模型或需额外训练的终止模块它巧妙地将Actor的Logits置信度与Critic的价值估计结合实现了无需外部监督的在线失败检测。