【RL】RL Grokking Recipe: How Does RL Unlock and Transfer New Algorithms in LLMs? 核心结论本文直面“RL仅优化LLM基座已有能力”的主流争议提出可复现的“RL Grokking Recipe”训练方案通过严谨实验证明特定条件下RL能让LLM突破基座能力上限passK0任务解锁全新算法能力并实现有限迁移为RL驱动LLM推理能力跃迁提供关键证据与实践路径一、研究背景与核心争议当前学界对RL 能否提升 LLM 推理能力存在两大对立观点主流怀疑派Sharpening 模式RL 只是打磨、激活基座模型已有的能力只提升采样效率无法突破基座表征上限如果基座在某任务上 passK0RL 会因奖励稀疏、梯度消失而完全学不到新策略少数乐观派Discovery 模式RL 可以解锁基座完全不具备的新推理 / 算法策略实现能力跃迁但缺少严谨实验 可复现方法研究痛点传统数据集存在数据污染分不清是 “记忆” 还是 “真学会” 无法严谨证明 RL 让模型学到了新能力。在passK0 任务上标准 RL 梯度为 0无法学习二、核心研究问题本文要回答三个根本性问题可学习性RL 能否让 LLM 在基座 passK0的任务上学到全新算法迁移性RL 学到的新算法能否泛化到 OOD 任务关键条件如何设计 RL 方案破解passK0 零梯度诅咒触发能力 “顿悟”三、核心研究方法创新点1. 构建 DELTA 基准核心工具创新为了彻底避开数据污染、严格验证 “从零学会”作者构建了DELTA 基准完全合成、全新 DSL 语言互联网不存在训练 / 测试严格分布外OOD部分任务基座pass1280支持三类迁移探索性: 同一种任务 → 只是变难、变复杂。组合性:把学会的多个子技能重新组合成新任务。转化性泛化: 换到完全不同的规则 / 不同动力学 / 不同领域。对应图表Figure 1左侧展示 DELTA 包含的多类任务人造编程 / 模拟任务、SQL 等右侧展示基座模型在这些任务上passk0的结果证明是 “真正从零学”。Learnability可学习性看 RL 如何让模型grokking顿悟出全新策略Generalization泛化性看模型学到的算法能不能迁移、泛化、重组上半部分Learnability可学习性—— RL Grokking 顿悟曲线横轴训练步数RL 迭代轮次纵轴任务通过率Full-pass Rate曲线形态长平台期Exploration Phase前几百 / 几千步通过率≈0passK0模型在探索、试错未找到有效算法。Grokking 顿悟点Phase Transition某一步突然 “开窍”通过率从接近 0跳升至接近 100%。收敛期Convergence Phase稳定在接近满分模型掌握并固化了全新算法。核心含义证明RL 能让 LLM 学会基础模型完全不会的新算法不是微调 / 记忆。关键是两阶段奖励先用稠密奖励per-test走出零奖励区再用二元全对奖励full-pass巩固正确策略。下半部分Generalization泛化性—— 四大迁移维度展示 RL 学到的算法如何迁移到 OOD分布外任务沿四大轴测试Exploratory Gen探索性泛化同问题家族、更难的变体如 Manufactoria 更复杂规则。Compositional Gen组合性泛化将学到的子算法 / 子技能重新组合解决新任务。Transformative Gen转化性泛化跨问题类型、需要彻底改变推理范式论文中表现最弱。Domain-level Gen领域级泛化跨问题家族如从 Manufactoria 到 BouncingSim。核心含义RL 学到的算法具备一定迁移能力尤其在同家族与组合场景但在转化性泛化上仍有瓶颈。Figure 2Manufactoria 难度阶梯图含义将 Manufactoria 14 个任务家族分为 Basic/Easy/Medium/Hard展示任务难度分层证明 DELTA 覆盖从易到难的完整梯度。Figure 3BouncingSim 各任务家族 难度热力图含义展示 BouncingSim 不同任务家族ROT OBJ、GRAVITY 等与难度层级的基线性能直观呈现任务复杂度分布与基座能力上限。2. 提出 RL Grokking Recipe核心方法创新目标破解passK0 零梯度问题触发 Grokking 相变。采用两阶段奖励调度Warm-up 阶段密集奖励按测试用例通过率给 0~1 连续奖励让模型从全零奖励中获得梯度积累局部正确逻辑收敛阶段切换为二元奖励只有全部用例通过才给奖励过滤 “投机解、局部解”巩固完整算法辅助策略稳定训练、加速grokking经验回放课程学习Figure 5 对比了三种不同策略在解决passK0这类基座模型完全不会的任务时的效果。所有实验都在 Manufactoria‑HAS 任务上基于 Qwen3‑4B 模型展开。子图 (a)直接用 GRPO 对全对奖励做优化完全失败。因为一开始模型什么都做不对奖励始终为 0没有梯度根本学不起来。子图 (b)改用按测试用例通过率的稠密奖励虽然奖励更平滑、能起步但很快就饱和停滞只能学到局部正确学不会完整算法。子图 (c)我们提出的两阶段训练—— 先用稠密奖励做 warm‑up 启动学习再切换成全对奖励做收敛。只有这种方式能让模型从完全不会最终实现顿悟、成功解出任务。Figure 6 对比了2种能够 ** 加速 RL 顿悟grokking** 的训练策略。No Trick 是使用图5所示的2阶段标准训练作为基线收敛很慢Experience Replay 经验回放通过记录并复用成功轨迹显著加快训练收敛grok时刻提前到来较长的探索阶段主要来自于积极奖励信号的稀疏性。缓解这种情况的一种自然方法是保留成功的推理轨迹并将其重新插入到未来的部署中——被称为经验回放。Experience Replay Feedback-in-the-loop循环反馈可加速grok时刻到来但是训练稳定性差。这张图说明经验回放和循环反馈能有效加速顿悟是实现高效 RL 学习的关键辅助策略。Figure 7 对比了 Manufactoria-HAS 任务上两阶段课程学习的效果。所有模型先统一在基础任务上训练学习 START、APPEND、EXACT 等基础技能再进入两条不同的中间课程路径一第二阶段学习 REGEX 正则类任务相关任务与目标任务逻辑相近能够有效迁移最终在 HAS 任务上达到很高的通过率路径二第二阶段学习 COMPR 理解类任务任务与目标任务无关无法迁移性能长期停留在低位。结果说明课程学习想要成功关键不仅在于循序渐进更在于中间任务与目标任务的相关性才能实现有效技能迁移。Figure 8方法也存在局限性并非所有任务都能通过Warm-up训练解锁。在难度更高的 Manufactoria-PREPEND 任务上即使使用稠密奖励模型仍无法学会完整算法full-pass 率始终为 0。这表明 Warm-up并非通用方案其效果受模型容量与任务难度限制。四、核心实验结论结论 1RL 能解锁全新算法触发 Grokking 相变在多个passK0任务上模型出现典型Grokking 曲线长期平台期准确率 ≈ 0某一训练步数突然顿悟、暴涨到接近 100%从 “完全不会” 直接跳到 “精通算法”分析证明不是基座能力的采样优化是真正学到了全新算法策略RL 实现了Discovery 模式Figure 4RL 训练前后 Manufactoria-HAS 的 Passk 对比含义直观展示 RL 前后模型从完全不会≈0到高通过率的跃迁直接证明 RL 解锁全新能力。Figure 9(a)BouncingSim 上的 Grokking 曲线含义训练集准确率在约 200 step 出现陡峭跳变是典型顿悟相变曲线证明 Grokking 真实发生。(b)(c)(d)BOUNCINGSIM 泛化实验含义(b) 探索性泛化能迁移到更难变体 (c) 组合性泛化技能零样本组合可用 (d) 转化性泛化全新动力学几乎不迁移证明RL 解锁的算法能力有限泛化。结论 2新算法能力具备有限泛化性在 DELTA 上做三类迁移实验图9有效迁移同任务家族更难场景探索性泛化 ✅子技能重新组合组合性泛化 ✅迁移局限转化性泛化 ❌跨任务家族效果差 ❌结论RL 能学到强任务级算法但还不是通用概念级能力。结论 3调和学界争议 —— RL 双模式本文正式统一两种观点Sharpening打磨模式标准 RL只优化采样、无法突破 passK0Discovery发现模式RL Grokking Recipe突破基座上限从零解锁新算法关键差异奖励设计 持续探索。五、核心贡献与意义理论贡献打破 “RL 只能打磨能力” 的认知证明 RL 可解锁全新算法Grokking 是关键标志。方法贡献提出RL Grokking Recipe两阶段奖励破解 passK0 零梯度难题。工具贡献构建DELTA 基准无污染、可控、严格 OOD。实践意义给工业界指明方向不要只堆数据、堆模型重点做奖励设计 探索策略 长期 RL 训练六、一句话总结RL 并非只能 “打磨” LLM 已有能力通过两阶段奖励调度 持续探索它能让模型实现顿悟解锁基座完全不具备的全新算法但这种突破的泛化能力仍有局限未来需重点优化跨场景迁移让 RL 真正成为 LLM 推理能力跃迁的核心驱动力。