【AI Daily 2026-06-05】「持续迭代」已成为 2026 年 Agent 研究的核心命题 1 StreamMA — 多智能体推理的流式革命arXiv 2606.05158 | cs.CL/cs.AI/cs.MA https://arxiv.org/abs/2606.05158一句话核心打破「生成完再传输」范式步骤级流水线让多 Agent 推理又快又准。技术创新Streaming paradigm每个 reasoning step 生成后立即推送给下游 Agent相邻 Agent 并行执行端到端延迟从 O(depth) 降为 O(1)意外发现流式传输同时提升准确率——早期推理步骤比晚期更可靠避免错误末步误导下游步骤级缩放律Step-Level Scaling Law每个 Agent 分配更多步骤效率和效果同步提升与 Agent 数量缩放正交可叠加闭合形式分析首次推导 stream/serial/single 三种协议的效果排序、加速上界、成本比实验结果⦁8 个推理基准数学/科学/代码Chain/Tree/Graph 三种拓扑⦁avg. 7.3ppHMMT 2026 最高 22.4ppClaude Opus 4.6-high开源 https://zhenyangcs.github.io/StreamMA-website/ 2 AutoLab — 极长视野 Agent 能力基准arXiv 2606.05080 | cs.AI/cs.LG https://arxiv.org/abs/2606.05080一句话核心现有 frontier 模型几乎都无法坚持「持续迭代改进」—— 这才是真正的 Agent 挑战。技术创新⦁超长视野闭环优化36 个专家设计任务4 类域系统优化 / CUDA kernel 优化 / 模型研发 / 谜题挑战⦁每个任务从「正确但次优」基线出发在严格 wall-clock 预算内持续迭代提升⦁评估 17 个 SOTA 模型成功关键因子不是初次尝试质量而是持续 benchmark→edit→反馈的迭代次数⦁多数模型提前停止或耗尽预算进展极小Claude-opus-4.6 长视野优化能力最强洞察 自主 Agent 的核心能力缺口 时间感知 持续迭代耐力开源 https://github.com/autolabhq/autolab 3 DistIL — 富反馈 RL 超越 RLVRarXiv 2606.05152 | cs.LG/cs.AI/cs.CL https://arxiv.org/abs/2606.05152一句话核心用执行轨迹/工具输出/专家纠错替代单 bit 奖励训练更好的推理模型。技术创新⦁问题定位RLVR 只用「最终答案对/错」这 1 bit 反馈丢弃了工具输出、执行轨迹等大量信号⦁Distributional DAgger将富反馈建模为 expert 分布上的模仿学习Learner 本地访问 Expert 策略访问过的状态分布⦁前向交叉熵目标未来 expert-student 分歧反向传播到早期决策丰富的信度分配⦁理论保证证明 reverse KL / Jensen-Shannon 目标不保证单调策略改进前向 CE 保证单调改进 regret 界⦁实证在科学推理、代码、数学难题上全面优于 RLVR 和自蒸馏 RL 4 STRIDE — 激活空间训练数据归因13x 提速arXiv 2606.05165 | cs.LG/cs.CL https://arxiv.org/abs/2606.05165一句话核心不追踪 10 亿参数的梯度改在激活空间做稀疏恢复——更快更准。技术创新⦁范式转移将 Training Data Attribution (TDA) 从参数空间梯度追踪迁移到激活空间功能效应建模⦁稀疏恢复框架压缩感知精神学习轻量「steering operators」模拟数据子集的行为偏移⦁测量这些 operators 对测试预测的扰动 → 通过稀疏线性分解还原各训练样本的影响力⦁速度比 SOTA 快 13x同时达到更好的 LLM 预训练归因精度⦁应用数据选择、数据污染检测、定性分析 5 R-APS — 受限设计的组合推理方法arXiv 2606.04823 | cs.AI https://arxiv.org/abs/2606.04823一句话核心五种推理模式各司其职三时间尺度编排解决 LLM Agent 的结构性失败。技术创新⦁三大结构失败诊断错误无局部化、最坏情况扰动不评估、积累知识永不失效⦁根因归纳/反绎/反事实/纠正/元归纳推理共享单一 context产生冲突⦁R-APS 解法每种推理模式独立 context跨三个时间尺度编排⦁带类型验证批评的分阶段组合推理故障定位⦁以敏感度引导的反事实压力测试为 Pareto 目标鲁棒性⦁带显式失效机制的元归纳规则提取持久记忆⦁无需微调在冻结 LLM 上运行 ICLR 2026 推理方向精华新出炉解读集来源 https://papernotes.org/ICLR2026/llm_reasoning/精选 5 个最值得关注的方向① FastGRPO — GRPO 训练加速 2.35-2.72x⦁并发感知投机解码 在线 draft 学习⦁生成阶段占 91-98% 的瓶颈被针对性攻克② NuRLNudging — 解决 GRPO 无法从 passk0 难题学习的根本问题⦁注入自生成抽象 hint使不可解题变为可学习样本③ ATTS — 异步 test-time scaling 最高 56.7x 加速⦁基于 conformal prediction 的假设检验框架④ CyclicReflex — 免训练的反思 token 调度⦁三角波形动态调控 logit1.5B-8B 模型一致性提升⑤ DRPO — 解耦奖励策略优化⦁修复 GRPO 长度惩罚的根本缺陷正确答案不再被误惩罚 今日技术趋势总结「持续迭代」已成为 2026 年 Agent 研究的核心命题——AutoLab 直接证明当前所有 frontier 模型的长视野坚持能力都严重不足StreamMA 则从通信协议层面给出系统性优化路径。