【RL】RL Grokking Recipe: How Does RL Unlock and Transfer New Algorithms in LLMs?

发布时间：2026/5/15 21:56:47

核心结论本文直面“RL仅优化LLM基座已有能力”的主流争议提出可复现的“RL Grokking Recipe”训练方案通过严谨实验证明特定条件下RL能让LLM突破基座能力上限passK0任务解锁全新算法能力并实现有限迁移为RL驱动LLM推理能力跃迁提供关键证据与实践路径一、研究背景与核心争议当前学界对RL 能否提升 LLM 推理能力存在两大对立观点主流怀疑派Sharpening 模式RL 只是打磨、激活基座模型已有的能力只提升采样效率无法突破基座表征上限如果基座在某任务上 passK0RL 会因奖励稀疏、梯度消失而完全学不到新策略少数乐观派Discovery 模式RL 可以解锁基座完全不具备的新推理 / 算法策略实现能力跃迁但缺少严谨实验可复现方法研究痛点传统数据集存在数据污染分不清是 “记忆” 还是 “真学会” 无法严谨证明 RL 让模型学到了新能力。在passK0 任务上标准 RL 梯度为 0无法学习二、核心研究问题本文要回答三个根本性问题可学习性RL 能否让 LLM 在基座 passK0的任务上学到全新算法迁移性RL 学到的新算法能否泛化到 OOD 任务关键条件如何设计 RL 方案破解passK0 零梯度诅咒触发能力 “顿悟”三、核心研究方法创新点1. 构建 DELTA 基准核心工具创新为了彻底避开数据污染、严格验证 “从零学会”作者构建了DELTA 基准完全合成、全新 DSL 语言互联网不存在训练 / 测试严格分布外OOD部分任务基座pass1280支持三类迁移探索性: 同一种任务 → 只是变难、变复杂。组合性:把学会的多个子技能重新组合成新任务。转化性泛化: 换到完全不同的规则 / 不同动力学 / 不同领域。对应图表Figure 1左侧展示 DELTA 包含的多类任务人造编程 / 模拟任务、SQL 等右侧展示基座模型在这些任务上passk0的结果证明是 “真正从零学”。Learnability可学习性看 RL 如何让模型grokking顿悟出全新策略Generalization泛化性看模型学到的算法能不能迁移、泛化、重组上半部分Learnability可学习性—— RL Grokking 顿悟曲线横轴训练步数RL 迭代轮次纵轴任务通过率Full-pass Rate曲线形态长平台期Exploration Phase前几百 / 几千步通过率≈0passK0模型在探索、试错未找到有效算法。Grokking 顿悟点Phase Transition某一步突然 “开窍”通过率从接近 0跳升至接近 100%。收敛期Convergence Phase稳定在接近满分模型掌握并固化了全新算法。核心含义证明RL 能让 LLM 学会基础模型完全不会的新算法不是微调 / 记忆。关键是两阶段奖励先用稠密奖励per-test走出零奖励区再用二元全对奖励full-pass巩固正确策略。下半部分Generalization泛化性—— 四大迁移维度展示 RL 学到的算法如何迁移到 OOD分布外任务沿四大轴测试Exploratory Gen探索性泛化同问题家族、更难的变体如 Manufactoria 更复杂规则。Compositional Gen组合性泛化将学到的子算法 / 子技能重新组合解决新任务。Transformative Gen转化性泛化跨问题类型、需要彻底改变推理范式论文中表现最弱。Domain-level Gen领域级泛化跨问题家族如从 Manufactoria 到 BouncingSim。核心含义RL 学到的算法具备一定迁移能力尤其在同家族与组合场景但在转化性泛化上仍有瓶颈。Figure 2Manufactoria 难度阶梯图含义将 Manufactoria 14 个任务家族分为 Basic/Easy/Medium/Hard展示任务难度分层证明 DELTA 覆盖从易到难的完整梯度。Figure 3BouncingSim 各任务家族难度热力图含义展示 BouncingSim 不同任务家族ROT OBJ、GRAVITY 等与难度层级的基线性能直观呈现任务复杂度分布与基座能力上限。2. 提出 RL Grokking Recipe核心方法创新目标破解passK0 零梯度问题触发 Grokking 相变。采用两阶段奖励调度Warm-up 阶段密集奖励按测试用例通过率给 0~1 连续奖励让模型从全零奖励中获得梯度积累局部正确逻辑收敛阶段切换为二元奖励只有全部用例通过才给奖励过滤 “投机解、局部解”巩固完整算法辅助策略稳定训练、加速grokking经验回放课程学习Figure 5 对比了三种不同策略在解决passK0这类基座模型完全不会的任务时的效果。所有实验都在 Manufactoria‑HAS 任务上基于 Qwen3‑4B 模型展开。子图 (a)直接用 GRPO 对全对奖励做优化完全失败。因为一开始模型什么都做不对奖励始终为 0没有梯度根本学不起来。子图 (b)改用按测试用例通过率的稠密奖励虽然奖励更平滑、能起步但很快就饱和停滞只能学到局部正确学不会完整算法。子图 (c)我们提出的两阶段训练—— 先用稠密奖励做 warm‑up 启动学习再切换成全对奖励做收敛。只有这种方式能让模型从完全不会最终实现顿悟、成功解出任务。Figure 6 对比了2种能够 ** 加速 RL 顿悟grokking** 的训练策略。No Trick 是使用图5所示的2阶段标准训练作为基线收敛很慢Experience Replay 经验回放通过记录并复用成功轨迹显著加快训练收敛grok时刻提前到来较长的探索阶段主要来自于积极奖励信号的稀疏性。缓解这种情况的一种自然方法是保留成功的推理轨迹并将其重新插入到未来的部署中——被称为经验回放。Experience Replay Feedback-in-the-loop循环反馈可加速grok时刻到来但是训练稳定性差。这张图说明经验回放和循环反馈能有效加速顿悟是实现高效 RL 学习的关键辅助策略。Figure 7 对比了 Manufactoria-HAS 任务上两阶段课程学习的效果。所有模型先统一在基础任务上训练学习 START、APPEND、EXACT 等基础技能再进入两条不同的中间课程路径一第二阶段学习 REGEX 正则类任务相关任务与目标任务逻辑相近能够有效迁移最终在 HAS 任务上达到很高的通过率路径二第二阶段学习 COMPR 理解类任务任务与目标任务无关无法迁移性能长期停留在低位。结果说明课程学习想要成功关键不仅在于循序渐进更在于中间任务与目标任务的相关性才能实现有效技能迁移。Figure 8方法也存在局限性并非所有任务都能通过Warm-up训练解锁。在难度更高的 Manufactoria-PREPEND 任务上即使使用稠密奖励模型仍无法学会完整算法full-pass 率始终为 0。这表明 Warm-up并非通用方案其效果受模型容量与任务难度限制。四、核心实验结论结论 1RL 能解锁全新算法触发 Grokking 相变在多个passK0任务上模型出现典型Grokking 曲线长期平台期准确率 ≈ 0某一训练步数突然顿悟、暴涨到接近 100%从 “完全不会” 直接跳到 “精通算法”分析证明不是基座能力的采样优化是真正学到了全新算法策略RL 实现了Discovery 模式Figure 4RL 训练前后 Manufactoria-HAS 的 Passk 对比含义直观展示 RL 前后模型从完全不会≈0到高通过率的跃迁直接证明 RL 解锁全新能力。Figure 9(a)BouncingSim 上的 Grokking 曲线含义训练集准确率在约 200 step 出现陡峭跳变是典型顿悟相变曲线证明 Grokking 真实发生。(b)(c)(d)BOUNCINGSIM 泛化实验含义(b) 探索性泛化能迁移到更难变体 (c) 组合性泛化技能零样本组合可用 (d) 转化性泛化全新动力学几乎不迁移证明RL 解锁的算法能力有限泛化。结论 2新算法能力具备有限泛化性在 DELTA 上做三类迁移实验图9有效迁移同任务家族更难场景探索性泛化 ✅子技能重新组合组合性泛化 ✅迁移局限转化性泛化 ❌跨任务家族效果差 ❌结论RL 能学到强任务级算法但还不是通用概念级能力。结论 3调和学界争议 —— RL 双模式本文正式统一两种观点Sharpening打磨模式标准 RL只优化采样、无法突破 passK0Discovery发现模式RL Grokking Recipe突破基座上限从零解锁新算法关键差异奖励设计持续探索。五、核心贡献与意义理论贡献打破 “RL 只能打磨能力” 的认知证明 RL 可解锁全新算法Grokking 是关键标志。方法贡献提出RL Grokking Recipe两阶段奖励破解 passK0 零梯度难题。工具贡献构建DELTA 基准无污染、可控、严格 OOD。实践意义给工业界指明方向不要只堆数据、堆模型重点做奖励设计探索策略长期 RL 训练六、一句话总结RL 并非只能 “打磨” LLM 已有能力通过两阶段奖励调度持续探索它能让模型实现顿悟解锁基座完全不具备的全新算法但这种突破的泛化能力仍有局限未来需重点优化跨场景迁移让 RL 真正成为 LLM 推理能力跃迁的核心驱动力。

关于腾讯广告算法大赛2025项目分析3-重读

一、初始化 1.1 数据处理：MyDataset类实例化 _init_DataLoader：batch 化和并行加载 train_loader DataLoader（dataset, batch_sizeargs.batch_size,shuffleTrue, num_workers12,collate_fndataset.collate_fn） 对MyDataset类的函…

2026/5/15 21:56:27 阅读更多

扔掉KVM切换器！GitHub 25.7K Star的Deskflow：用一套键鼠无缝控制多台电脑的软件KVM方案

两台电脑两套键鼠，桌面杂乱、切换繁琐，硬件KVM切换器又贵得离谱？Deskflow 是一款开源跨平台的软件KVM方案，它允许用一套键鼠无缝穿梭于不同设备之间，让一台电脑的鼠标光标直接“穿越”到另一台电脑的屏幕上。本文将从技…

2026/5/15 21:55:46 阅读更多

网络通信调试难题的Qt解决方案：mNetAssist深度解析

网络通信调试难题的Qt解决方案：mNetAssist深度解析【免费下载链接】mNetAssist mNetAssist - A UDP/TCP Assistant 项目地址: https://gitcode.com/gh_mirrors/mn/mNetAssist 网络协议调试过程中，开发者常面临协议兼容性、数据传输验证和连接状态…

2026/5/15 21:55:26 阅读更多

Windows开发环境设置脚本性能优化：10个加速软件包安装与系统配置的技巧

Windows开发环境设置脚本性能优化：10个加速软件包安装与系统配置的技巧【免费下载链接】windows-dev-box-setup-scripts Scripts to simplify setting up a Windows developer box 项目地址: https://gitcode.com/gh_mirrors/wi/windows-dev-box-setup-scripts …

2026/5/15 22:43:23 阅读更多

5分钟重塑游戏性能管理：DLSS Swapper带来的工作流革命

5分钟重塑游戏性能管理：DLSS Swapper带来的工作流革命【免费下载链接】dlss-swapper 项目地址: https://gitcode.com/GitHub_Trending/dl/dlss-swapper 痛点洞察：当DLSS管理成为游戏玩家的技术负担作为一名现代PC游戏玩家，你是否曾…

2026/5/15 22:42:22 阅读更多

LetsFG：基于Function与Group的去中心化协作平台设计与实战

1. 项目概述：一个面向未来的开源协作平台最近在开源社区里，一个名为“LetsFG/LetsFG”的项目引起了我的注意。乍一看这个标题，可能会觉得有些抽象，但当你深入其代码仓库和设计理念后，会发现它指向了一个非常具体且极具…

2026/5/15 22:40:20 阅读更多

Synabun：Node.js 高可靠 HTTP 请求策略引擎详解

1. 项目概述：一个被低估的HTTP请求库如果你经常在Node.js环境下处理HTTP请求，大概率用过axios、node-fetch或者原生的http模块。这些工具各有优劣，但当你需要处理复杂的重试逻辑、精细的速率限制、或者想在一个统一的接口下管理多种请求策略时…

2026/5/15 22:40:20 阅读更多

面向对象与多源遥感协同：eCognition-ENVI在雄安新区土地利用动态监测中的实践

1. 面向对象与多源遥感协同的技术背景在快速城市化的今天，土地利用动态监测变得越来越重要。传统的像素级分类方法虽然简单直接，但在处理高分辨率遥感影像时，往往会遇到"椒盐效应"——就像用细小的马赛克拼图，每个像素…

2026/5/15 22:38:17 阅读更多

嵌入式Linux驱动DLP投影：硬件接口、软件栈与实战应用

1. 项目概述：当DLP投影遇上嵌入式Linux如果你正在寻找一个既能玩转嵌入式Linux，又能探索前沿投影显示技术的项目，那么DLP LightCrafter™ Display 2000评估模块（EVM）绝对是一个让你眼前一亮的平台。它不是一个简单的投…

2026/5/15 22:38:17 阅读更多

【2026】新高考英语大纲词汇表3500个电子版PDF（含正序版、乱序版和默写版）

高中英语大纲词汇表（2026年版）内容说明词汇收录标准严格遵循高中英语教学大纲要求，精选3500个核心词汇，全面覆盖高中阶段英语学习的基础词汇与进阶词汇。版本分类及功能版本类型编排特点主要功能正序版按字母顺序排列系统…

2026/5/15 0:01:17 阅读更多

【最新v2.7.1 版本】零代码无命令！OpenClaw 零基础快速部署保姆级实战教程

OpenClaw（小龙虾）Windows 一键部署保姆级教程 | 10 分钟搭建专属数字员工前言 2026 年开源圈热门 AI 智能体 OpenClaw（昵称小龙虾），GitHub 星标突破 28 万，凭借本地运行零代码操作智能自动执行收获大…

2026/5/15 0:01:17 阅读更多

别再只用HashMap了！用Java BitSet和布隆过滤器处理亿级数据去重，内存省了90%

亿级数据去重的终极武器：Java BitSet与布隆过滤器实战手册当你的JVM内存被一个简单的用户ID去重任务撑爆时，当你的日志分析系统因为HashSet的过度内存消耗而崩溃时，是时候重新审视那些被我们忽视的空间压缩神器了。本文将带你深入两种能够将…

2026/5/15 0:01:38 阅读更多

贾子理论与AI时代文明竞争：从暴力计算到本质贯通的范式重构

贾子理论与AI时代文明竞争：从暴力计算到本质贯通的范式重构摘要本文基于贾子理论的文明竞争视角，揭示中美AI战略差异的本质并非技术参数较量，而是“暴力计算”与“本质贯通”两种文明范式的根本对立。美国依赖算力堆叠与资本逻辑追求技术霸权…

2026/5/14 23:29:16 阅读更多

2026年AI大模型API中转平台排名揭晓，诗云API(ShiyunApi)脱颖而出成省心之选

在AI开发领域，如何接入模型厂商的官方API是一个绕不开的现实问题。对于海外开发者来说，注册、绑卡、调用，三步即可轻松搞定。然而，国内开发者却面临着跨境网络波动、外币支付门槛、发票合规需求以及多厂商Key碎片化管理等诸多“非…

2026/5/15 17:36:19 阅读更多

基于飞书与OpenAI构建企业级AI助手：架构、部署与深度优化指南

1. 项目概述：当飞书遇上AI，一个企业级智能助手的诞生最近在折腾一个挺有意思的项目，叫“ConnectAI-E/feishu-openai”。简单来说，它就是一个桥梁，把飞书这个强大的企业协作平台，和以ChatGPT为代表的OpenA…

2026/5/15 0:06:09 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/15 14:41:25 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/15 14:41:26 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…