DeepSeek-R1 能解国际奥数题却搞不定一张机票。2025年初这个反差刷爆了朋友圈。一边是推理模型在数学题上杀疯了另一边是 AI Agent 在真实世界里笨手笨脚——点个按钮能点错填个表单能填串行多步骤任务做到第三步就忘了第一步要干嘛。注释DeepSeek-R1DeepSeek-AI 于 2025 年 1 月发布的推理模型通过纯强化学习RL训练获得强大的数学和代码推理能力是 “Reasoning RL” 范式的代表。它不需要人工标注的逐步监督仅靠最终结果的正确性就能自我改进。为什么它重要它证明了稀疏奖励在可验证领域可以work——答案对错一目了然。你当然可以把这归咎于模型还不够大。这个解释太舒服了舒服到它可能已经骗过了你自己。独立研究者 Chenchen Zhang 在 2026 年 4 月发布的一份综述像一盆冰水浇了下来。他梳理了 2024 到 2026 年初的47 种信用分配Credit Assignment方法画出了一张清晰的地图——地图上的颜色分化得让人心惊代表推理 RL的左半边已经亮起了成熟的绿灯而代表Agentic RL的右半边几乎还是一片漆黑。注释信用分配Credit Assignment想象你教一个新手厨师做一道复杂的菜。两小时后菜端上来味道很差。你只知道结果坏了但你不知道到底是切菜切坏了、火候大了、还是调料放错了。信用分配就是回答在一长串动作中到底是哪个动作对最终结果负主要责任在 RL 中模型通常只在最后收到一个稀疏奖励比如任务成功/失败。信用分配的任务就是把这个最终奖励拆解到中间的每一个动作上让模型知道该改哪里。这就是那盆冰水要告诉你的问题不是模型不够聪明是训练信号太粗糙。就像一个学生每次考试只被告知总分却永远拿不到错题分析——他只能盲猜自己哪里错了。 一张地图两个世界Chenchen Zhang 的核心贡献是把这 47 种方法扔进了一个二维分类体系粒度 \ 方法论 Monte Carlo⏱️ Temporal Difference Model-based Game-theoretic Info-theoreticToken 级VinePPO————Segment 级SPO, SCAR——Shapley值—Step 级PURE, HICRAPRM 系列———Turn 级—AgentPRMArCHerC3, CCPOCAPOMulti-Agent——CARL博弈论分配—注释二维分类体系粒度Granularity奖励信号拆解的精细程度。Token 级精确到每个词Segment 级到片段Step 级到推理步骤Turn 级到对话轮次Multi-Agent 级到多个智能体之间的分工。方法论MethodologyMonte Carlo通过多次采样估计期望回报简单直接但方差大Temporal Difference结合当前估计和未来预测类似走一步看一步Model-based学习环境模型来预测未来用想象力辅助分配Game-theoretic用博弈论如 Shapley 值计算每个动作对团队的边际贡献Info-theoretic基于信息增益判断哪些动作提供了最有价值的信息这张表里最刺眼的是左上和右下之间的那条对角线断裂。在Reasoning RL推理强化学习的世界里模型一次生成一条思维链Tokens 数量在500 500500到30 000 30\,00030000之间。环境是确定的——你写一个推导步骤下一步完全由你当前的输出决定。结果是可验证的——数学题答案对不对一检查就知道。在这个相对温柔的战场上Token 级和 Step 级的方法已经相当成熟。VinePPO、PURE、PRM 系列……它们各司其职像一套精密的手术器械。但在Agentic RL代理强化学习的世界里一切都变了。模型要和真实环境进行多轮交互——点击、等待页面加载、读取新信息、再点击。Turn 数量轻松超过100 100100总 Tokens 达到100 000 100\,000100000到1 000 000 1\,000\,0001000000。环境是随机的——同一个按钮点下去这次弹出对话框下次可能直接报错。状态是部分可观测的——模型看不到后台的 JavaScript 状态。中间步骤是不可验证的——你怎么判断点击设置菜单这一步本身是对是错复杂度跃迁 ∼ Agentic 交互长度 Reasoning 长度 ≈ 10 5 ∼ 10 6 10 3 ∼ 10 4 10 ∼ 100 × \text{复杂度跃迁} \sim \frac{\text{Agentic 交互长度}}{\text{Reasoning 长度}} \approx \frac{10^5 \sim 10^6}{10^3 \sim 10^4} 10\sim100\times复杂度跃迁∼Reasoning长度Agentic交互长度≈103∼104105∼10610∼100×注释Reasoning RL vs Agentic RL维度Reasoning RLAgentic RL场景解数学题、写代码、逻辑推理操作电脑、使用手机、浏览网页交互长度单次生成500 500500–30 000 30\,00030000tokens多轮交互100 000 100\,000100000–1 000 000 1\,000\,0001000000tokens环境确定性输出决定下一步随机性环境会不可预测地变化可验证性中间步骤可验证每步推导可对错中间状态不可验证点击菜单本身难判断对错信用分配难度 成熟 蛮荒Chenchen Zhang 的原话被他自己标上了证据级别“从单次生成轨迹到多轮 Agent 交互信用分配从一个优化便利变成了训练必需品。”这不是作者的臆测这是[SE]——强实证支持的结论。 GRPO 信徒的盲点“等等GRPO 不是很火吗DeepSeek-R1 不就是用它训出来的吗”对。GRPOGroup Relative Policy Optimization在 2025 年确实火得一塌糊涂。它漂亮地解决了 Reasoning RL 里的信用分配问题——通过组内相对比较不需要额外的 Critic 模型就能判断哪些推理步骤更好。注释GRPOGroup Relative Policy OptimizationGRPO 是 DeepSeek-R1 使用的核心 RL 算法。它的聪明之处在于不单独训练一个裁判Critic来判断每一步好不好而是让模型一次性生成多条答案然后比较同一组答案内部的相对优劣。好的答案中的步骤获得正反馈差的获得负反馈。类比像一个班级考试后老师不看绝对分数而是看这次考了班级前 10% 的同学他们的答题思路有什么共同点。但 GRPO 的秘密在于——它高度依赖一个前提同一道题的多个答案其最终结果是可比的。在数学题里这个前提天然成立。但在 Agentic 场景里你让模型操作手机订机票第一次它卡在登录页第二次它成功到了支付页——这两个最终奖励怎么比更重要的是如果两次尝试在第 5 步就选择了不同的路径之后的所有步骤都不具备可比性了。这就是GRPO 家族的阿喀琉斯之踵。Chenchen Zhang 在综述中做了一个系统的 GRPO 家族元比较。结论很冷静GRPO 及其变体在 Reasoning 场景下表现稳健但在 Agentic 场景下面对长 horizon、随机转移和部分可观测性时性能急剧退化。这不是算法的问题是问题本身的性质变了。就像你用一把手术刀去砍木头。手术刀很锋利但木头不是手术刀该切的东西。 LLM-as-Critic一个只有这个时代才有的奇招综述中最让我停下来的部分是一个被称为“LLM-as-Critic”的新范式。注释LLM-as-Critic传统 RL 需要人工设计奖励函数或者用神经网络学习一个 Critic 来评估状态。但 LLM-as-Critic 的思路是让另一个大语言模型或模型自身用自然语言来评价中间步骤的质量。例如模型操作手机时走到某一步另一个 LLM 会看当前屏幕截图和已执行的动作然后写一段评语“当前步骤正确地打开了设置菜单但还没有找到蓝牙选项需要继续向下滚动。”这种方法在经典 RL 中没有直接对应物——因为传统 RL 处理的是数值状态而 LLM 可以处理语义丰富的文本和图像。想想看在经典强化学习里你面对的是一个数值状态向量Critic 网络输出一个标量价值。但 LLM 面对的中间状态是什么是一张屏幕截图是一段 HTML 代码是一个弹窗提示。这些状态的好坏只有用自然语言才能精确描述。所以研究者干脆让 LLM 自己来当裁判。CAPO、SWEET-RL、LaRe、HCAPO、CriticSearch……这些方法的核心都大同小异在中间步骤暂停让另一个 LLM或同一个 LLM 的另一套权重写一段评语——“这个操作选对了”、“这里应该向下滚动而不是向上”、“当前页面还没有加载完成需要等待”。这种方法在经典 RL 中没有直接对应物。它是一个只属于 LLM 时代的独特能力。但 Chenchen Zhang 给它标了[LS]——有限但暗示性的证据。也就是说它看起来很有前途但还远未被证明比传统的基于价值函数的方法更有效。我赌这个方向会爆。但我也承认这只是我的直觉。⚡ 最不舒服的推论好现在来到文章最锋利的地方。这篇综述指向一个很多人不想听的结论我们可能已经接近 Reasoning 能力的天花板了。不是模型不够大而是推理这个任务本身其信用分配问题已经被解决得差不多了。PRM、VinePPO、GRPO……工具箱已经足够丰富剩下的只是工程优化。但真正的瓶颈从来不在于模型能不能解奥数题。真正的瓶颈在于模型能不能在真实世界里通过试错学会做事注释为什么 Agentic 信用分配更难想象两个学习场景场景 AReasoning你给学生一本数学题他写了一个解答过程。你可以检查每一步推导是否合法。如果最后答案错了你回溯到第 3 步发现他用错了公式——问题定位精确。场景 BAgentic你让一个实习生用公司的 CRM 系统录入客户信息。两小时后他说搞砸了。到底哪里错了是他在第 5 步点错了菜单还是系统在第 8 步突然弹出了一个他没见过的新对话框还是他其实做对了所有操作只是客户信息本身就在原系统里缺失了Agentic 场景的信用分配难在环境不是确定性的教科书而是一个会随机变脸的复杂系统。而要做到这一点Agentic 信用分配必须先被攻克。不是大概差不多而是要精确到在 100 多轮交互中第 37 步的那个点击到底是 masterpiece 还是 disaster。Chenchen Zhang 的综述里有一个数字让我背脊发凉2026 年 3 月仅在单一周内就有三篇独立的反事实信用分配论文同时出现。这不是偶然。这是一个领域正在加速的信号。 我赌的那句话Agentic 信用分配将成为 2026–2027 年最重要的 AI 研究方向其突破将决定哪些实验室能做出真正可用的 AI Agent。这不是一个值得关注的安全判断。这是一个会被证伪的赌注。如果一年后某个 100B 参数的模型通过简单的 scale up 就在 Agentic 任务上达到了 95% 成功率不需要任何精巧的信用分配机制——那我错了。我就是在制造恐慌让创业者过度投资在复杂的 RL 训练上。但如果一年后最好的 Agentic 系统依然是那些在小模型上做了精细信用分配设计的团队——比如这篇综述里提到的 ArCHer、CARL、C3——那我的赌注就兑现了。 结尾不总结这场豪赌的赌注很高。因为如果我们解决不了 Agentic 信用分配那所有的AI Agent 将改变世界的叙事都可能只是另一场货物崇拜——我们建好了竹子的控制塔戴上了椰子壳的耳机站在跑道上挥动旗帜。但飞机不会来。✈️除非我们搞清楚在那些漫长的交互链条里功劳到底算谁的。 论文详细信息标题: From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models作者: Chenchen ZhangIndependent Researcher机构: Independent ResearcherarXiv ID: 2604.09459发布日期: 2026 年 4 月 10 日v12026 年 4 月 13 日v2分类: cs.CLComputation and LanguageGitHub 资源: Awesome-Credit-Assignment-in-LLM-RL核心贡献:系统综述 2024 年至 2026 年初的47 种信用分配方法41 种核心方法 6 种辅助技术提出二维分类体系按分配粒度Token → Segment → Step → Turn → Multi-Agent和方法论Monte Carlo / TD / Model-based / Game-theoretic / Info-theoretic组织明确指出从 Reasoning RL 到 Agentic RL 的范式跃迁前者信用分配已趋成熟后者仍处早期贡献三个可复用社区资源结构化论文数据库、报告检查清单、基准协议规范核心论点带证据级别:[SE]信用分配是 LLM RL 的核心挑战重要性随 Agentic 化而增长[SE]Reasoning CA 已趋成熟Token/Segment/Step 级方法有效[LS]Agentic CA 仍处于萌芽期随机环境、部分可观测、超长 horizon 带来质性更难挑战[LS]LLM-as-Critic 是 LLM 时代独有的范式无经典 RL 直接对应物[AS]领域正在加速2026 年 3 月单周三篇反事实 CA 论文同时出现#CrushAI #FeynmanLearning #AgenticRL #CreditAssignment #强化学习 #智柴系统实验室️
[特殊字符] Agentic RL 的隐形天花板:一场关于「功劳算谁的」的豪赌
发布时间:2026/6/8 7:28:54
DeepSeek-R1 能解国际奥数题却搞不定一张机票。2025年初这个反差刷爆了朋友圈。一边是推理模型在数学题上杀疯了另一边是 AI Agent 在真实世界里笨手笨脚——点个按钮能点错填个表单能填串行多步骤任务做到第三步就忘了第一步要干嘛。注释DeepSeek-R1DeepSeek-AI 于 2025 年 1 月发布的推理模型通过纯强化学习RL训练获得强大的数学和代码推理能力是 “Reasoning RL” 范式的代表。它不需要人工标注的逐步监督仅靠最终结果的正确性就能自我改进。为什么它重要它证明了稀疏奖励在可验证领域可以work——答案对错一目了然。你当然可以把这归咎于模型还不够大。这个解释太舒服了舒服到它可能已经骗过了你自己。独立研究者 Chenchen Zhang 在 2026 年 4 月发布的一份综述像一盆冰水浇了下来。他梳理了 2024 到 2026 年初的47 种信用分配Credit Assignment方法画出了一张清晰的地图——地图上的颜色分化得让人心惊代表推理 RL的左半边已经亮起了成熟的绿灯而代表Agentic RL的右半边几乎还是一片漆黑。注释信用分配Credit Assignment想象你教一个新手厨师做一道复杂的菜。两小时后菜端上来味道很差。你只知道结果坏了但你不知道到底是切菜切坏了、火候大了、还是调料放错了。信用分配就是回答在一长串动作中到底是哪个动作对最终结果负主要责任在 RL 中模型通常只在最后收到一个稀疏奖励比如任务成功/失败。信用分配的任务就是把这个最终奖励拆解到中间的每一个动作上让模型知道该改哪里。这就是那盆冰水要告诉你的问题不是模型不够聪明是训练信号太粗糙。就像一个学生每次考试只被告知总分却永远拿不到错题分析——他只能盲猜自己哪里错了。 一张地图两个世界Chenchen Zhang 的核心贡献是把这 47 种方法扔进了一个二维分类体系粒度 \ 方法论 Monte Carlo⏱️ Temporal Difference Model-based Game-theoretic Info-theoreticToken 级VinePPO————Segment 级SPO, SCAR——Shapley值—Step 级PURE, HICRAPRM 系列———Turn 级—AgentPRMArCHerC3, CCPOCAPOMulti-Agent——CARL博弈论分配—注释二维分类体系粒度Granularity奖励信号拆解的精细程度。Token 级精确到每个词Segment 级到片段Step 级到推理步骤Turn 级到对话轮次Multi-Agent 级到多个智能体之间的分工。方法论MethodologyMonte Carlo通过多次采样估计期望回报简单直接但方差大Temporal Difference结合当前估计和未来预测类似走一步看一步Model-based学习环境模型来预测未来用想象力辅助分配Game-theoretic用博弈论如 Shapley 值计算每个动作对团队的边际贡献Info-theoretic基于信息增益判断哪些动作提供了最有价值的信息这张表里最刺眼的是左上和右下之间的那条对角线断裂。在Reasoning RL推理强化学习的世界里模型一次生成一条思维链Tokens 数量在500 500500到30 000 30\,00030000之间。环境是确定的——你写一个推导步骤下一步完全由你当前的输出决定。结果是可验证的——数学题答案对不对一检查就知道。在这个相对温柔的战场上Token 级和 Step 级的方法已经相当成熟。VinePPO、PURE、PRM 系列……它们各司其职像一套精密的手术器械。但在Agentic RL代理强化学习的世界里一切都变了。模型要和真实环境进行多轮交互——点击、等待页面加载、读取新信息、再点击。Turn 数量轻松超过100 100100总 Tokens 达到100 000 100\,000100000到1 000 000 1\,000\,0001000000。环境是随机的——同一个按钮点下去这次弹出对话框下次可能直接报错。状态是部分可观测的——模型看不到后台的 JavaScript 状态。中间步骤是不可验证的——你怎么判断点击设置菜单这一步本身是对是错复杂度跃迁 ∼ Agentic 交互长度 Reasoning 长度 ≈ 10 5 ∼ 10 6 10 3 ∼ 10 4 10 ∼ 100 × \text{复杂度跃迁} \sim \frac{\text{Agentic 交互长度}}{\text{Reasoning 长度}} \approx \frac{10^5 \sim 10^6}{10^3 \sim 10^4} 10\sim100\times复杂度跃迁∼Reasoning长度Agentic交互长度≈103∼104105∼10610∼100×注释Reasoning RL vs Agentic RL维度Reasoning RLAgentic RL场景解数学题、写代码、逻辑推理操作电脑、使用手机、浏览网页交互长度单次生成500 500500–30 000 30\,00030000tokens多轮交互100 000 100\,000100000–1 000 000 1\,000\,0001000000tokens环境确定性输出决定下一步随机性环境会不可预测地变化可验证性中间步骤可验证每步推导可对错中间状态不可验证点击菜单本身难判断对错信用分配难度 成熟 蛮荒Chenchen Zhang 的原话被他自己标上了证据级别“从单次生成轨迹到多轮 Agent 交互信用分配从一个优化便利变成了训练必需品。”这不是作者的臆测这是[SE]——强实证支持的结论。 GRPO 信徒的盲点“等等GRPO 不是很火吗DeepSeek-R1 不就是用它训出来的吗”对。GRPOGroup Relative Policy Optimization在 2025 年确实火得一塌糊涂。它漂亮地解决了 Reasoning RL 里的信用分配问题——通过组内相对比较不需要额外的 Critic 模型就能判断哪些推理步骤更好。注释GRPOGroup Relative Policy OptimizationGRPO 是 DeepSeek-R1 使用的核心 RL 算法。它的聪明之处在于不单独训练一个裁判Critic来判断每一步好不好而是让模型一次性生成多条答案然后比较同一组答案内部的相对优劣。好的答案中的步骤获得正反馈差的获得负反馈。类比像一个班级考试后老师不看绝对分数而是看这次考了班级前 10% 的同学他们的答题思路有什么共同点。但 GRPO 的秘密在于——它高度依赖一个前提同一道题的多个答案其最终结果是可比的。在数学题里这个前提天然成立。但在 Agentic 场景里你让模型操作手机订机票第一次它卡在登录页第二次它成功到了支付页——这两个最终奖励怎么比更重要的是如果两次尝试在第 5 步就选择了不同的路径之后的所有步骤都不具备可比性了。这就是GRPO 家族的阿喀琉斯之踵。Chenchen Zhang 在综述中做了一个系统的 GRPO 家族元比较。结论很冷静GRPO 及其变体在 Reasoning 场景下表现稳健但在 Agentic 场景下面对长 horizon、随机转移和部分可观测性时性能急剧退化。这不是算法的问题是问题本身的性质变了。就像你用一把手术刀去砍木头。手术刀很锋利但木头不是手术刀该切的东西。 LLM-as-Critic一个只有这个时代才有的奇招综述中最让我停下来的部分是一个被称为“LLM-as-Critic”的新范式。注释LLM-as-Critic传统 RL 需要人工设计奖励函数或者用神经网络学习一个 Critic 来评估状态。但 LLM-as-Critic 的思路是让另一个大语言模型或模型自身用自然语言来评价中间步骤的质量。例如模型操作手机时走到某一步另一个 LLM 会看当前屏幕截图和已执行的动作然后写一段评语“当前步骤正确地打开了设置菜单但还没有找到蓝牙选项需要继续向下滚动。”这种方法在经典 RL 中没有直接对应物——因为传统 RL 处理的是数值状态而 LLM 可以处理语义丰富的文本和图像。想想看在经典强化学习里你面对的是一个数值状态向量Critic 网络输出一个标量价值。但 LLM 面对的中间状态是什么是一张屏幕截图是一段 HTML 代码是一个弹窗提示。这些状态的好坏只有用自然语言才能精确描述。所以研究者干脆让 LLM 自己来当裁判。CAPO、SWEET-RL、LaRe、HCAPO、CriticSearch……这些方法的核心都大同小异在中间步骤暂停让另一个 LLM或同一个 LLM 的另一套权重写一段评语——“这个操作选对了”、“这里应该向下滚动而不是向上”、“当前页面还没有加载完成需要等待”。这种方法在经典 RL 中没有直接对应物。它是一个只属于 LLM 时代的独特能力。但 Chenchen Zhang 给它标了[LS]——有限但暗示性的证据。也就是说它看起来很有前途但还远未被证明比传统的基于价值函数的方法更有效。我赌这个方向会爆。但我也承认这只是我的直觉。⚡ 最不舒服的推论好现在来到文章最锋利的地方。这篇综述指向一个很多人不想听的结论我们可能已经接近 Reasoning 能力的天花板了。不是模型不够大而是推理这个任务本身其信用分配问题已经被解决得差不多了。PRM、VinePPO、GRPO……工具箱已经足够丰富剩下的只是工程优化。但真正的瓶颈从来不在于模型能不能解奥数题。真正的瓶颈在于模型能不能在真实世界里通过试错学会做事注释为什么 Agentic 信用分配更难想象两个学习场景场景 AReasoning你给学生一本数学题他写了一个解答过程。你可以检查每一步推导是否合法。如果最后答案错了你回溯到第 3 步发现他用错了公式——问题定位精确。场景 BAgentic你让一个实习生用公司的 CRM 系统录入客户信息。两小时后他说搞砸了。到底哪里错了是他在第 5 步点错了菜单还是系统在第 8 步突然弹出了一个他没见过的新对话框还是他其实做对了所有操作只是客户信息本身就在原系统里缺失了Agentic 场景的信用分配难在环境不是确定性的教科书而是一个会随机变脸的复杂系统。而要做到这一点Agentic 信用分配必须先被攻克。不是大概差不多而是要精确到在 100 多轮交互中第 37 步的那个点击到底是 masterpiece 还是 disaster。Chenchen Zhang 的综述里有一个数字让我背脊发凉2026 年 3 月仅在单一周内就有三篇独立的反事实信用分配论文同时出现。这不是偶然。这是一个领域正在加速的信号。 我赌的那句话Agentic 信用分配将成为 2026–2027 年最重要的 AI 研究方向其突破将决定哪些实验室能做出真正可用的 AI Agent。这不是一个值得关注的安全判断。这是一个会被证伪的赌注。如果一年后某个 100B 参数的模型通过简单的 scale up 就在 Agentic 任务上达到了 95% 成功率不需要任何精巧的信用分配机制——那我错了。我就是在制造恐慌让创业者过度投资在复杂的 RL 训练上。但如果一年后最好的 Agentic 系统依然是那些在小模型上做了精细信用分配设计的团队——比如这篇综述里提到的 ArCHer、CARL、C3——那我的赌注就兑现了。 结尾不总结这场豪赌的赌注很高。因为如果我们解决不了 Agentic 信用分配那所有的AI Agent 将改变世界的叙事都可能只是另一场货物崇拜——我们建好了竹子的控制塔戴上了椰子壳的耳机站在跑道上挥动旗帜。但飞机不会来。✈️除非我们搞清楚在那些漫长的交互链条里功劳到底算谁的。 论文详细信息标题: From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models作者: Chenchen ZhangIndependent Researcher机构: Independent ResearcherarXiv ID: 2604.09459发布日期: 2026 年 4 月 10 日v12026 年 4 月 13 日v2分类: cs.CLComputation and LanguageGitHub 资源: Awesome-Credit-Assignment-in-LLM-RL核心贡献:系统综述 2024 年至 2026 年初的47 种信用分配方法41 种核心方法 6 种辅助技术提出二维分类体系按分配粒度Token → Segment → Step → Turn → Multi-Agent和方法论Monte Carlo / TD / Model-based / Game-theoretic / Info-theoretic组织明确指出从 Reasoning RL 到 Agentic RL 的范式跃迁前者信用分配已趋成熟后者仍处早期贡献三个可复用社区资源结构化论文数据库、报告检查清单、基准协议规范核心论点带证据级别:[SE]信用分配是 LLM RL 的核心挑战重要性随 Agentic 化而增长[SE]Reasoning CA 已趋成熟Token/Segment/Step 级方法有效[LS]Agentic CA 仍处于萌芽期随机环境、部分可观测、超长 horizon 带来质性更难挑战[LS]LLM-as-Critic 是 LLM 时代独有的范式无经典 RL 直接对应物[AS]领域正在加速2026 年 3 月单周三篇反事实 CA 论文同时出现#CrushAI #FeynmanLearning #AgenticRL #CreditAssignment #强化学习 #智柴系统实验室️