今日候选池89篇硬过滤 LLM 打分后通过评估18篇精选 Top-10另列 8 篇速览。关注方向多 Agent 系统 / LLM 后训练RL/SFT / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易 精选1. LamPO: A Lambda Style Policy Optimization for Reasoning Language Models评分8.4·方向cs.CL · Computation and Language ·arxiv2605.21235· PDF 在 RLVR 中用 Pairwise Decomposed Advantage 替代 GRPO 组优势并加 ROUGE-L 稠密奖励做细粒度信用分配。RLVR后训练推理模型摘要针对 RLVR 中 GRPO 仅用组级标量优势、难以区分细微推理质量差异的问题LamPO 提出成对分解优势Pairwise Decomposed Advantage在组内聚合候选答案的两两奖励差并结合序列 log-prob 差异进行置信加权保持 critic-free 与 clipped PPO 结构有参考解时再加入基于 ROUGE-L 的稠密辅助奖励。Qwen3 与 Phi-4-mini 在 AIME、MATH-500、GPQA 上均稳定优于 GRPO训练更稳、样本效率更高。评分细项rel 9.2 / nov 7.8 / prac 7.7 / author 6.02. Multi-agent Collaboration with State Management评分8.3·方向cs.MA · Multiagent Systems ·arxiv2605.20563· PDF STORM在共享代码库上做状态中介与写时冲突检测替代git worktree式隔离以降低多代理集成失败。多智能体Coding Agent状态管理协作系统摘要多智能体并发修改共享代码库时工作区隔离虽能避免直接冲突却把问题推迟到昂贵的合并阶段。STORM 通过显式状态管理统一 agent 与共享工作区的交互保证每个 agent 始终基于一致视图工作并在写入时检测和解决冲突。它可无缝接入现有多智能体系统在 Commit0 与 PaperBench 上分别较 git-worktree 基线提升 18.7 和 1.4 分成本效率相当或更优。评分细项rel 9.0 / nov 7.5 / prac 8.5 / author 6.03. Mem-π ππ: Adaptive Memory through Learning When and What to Generate评分8.3·方向cs.CL · Computation and Language ·arxiv2605.21463· PDF 提出 Mem-π用决策-内容解耦 RL 同时学习何时生成记忆提示与生成什么提示替代检索式 agent memory。agentic强化学习记忆机制摘要Mem-π 将 agent 记忆从“检索静态条目”改为“按需生成指导”。它使用独立于下游 agent 的语言/视觉语言模型根据当前上下文联合学习何时生成、生成什么并用决策—内容解耦的强化学习目标让模型在无益时选择 abstain、在需要时输出简洁有效提示。该方法在网页导航、终端工具使用和文本具身交互等基准上持续超过检索式与既有 RL 优化记忆方法网页导航相对提升超 30%。评分细项rel 9.0 / nov 8.0 / prac 8.0 / author 5.04. Insights Generator: Systematic Corpus-Level Trace Diagnostics for LLM Agents评分8.3·方向cs.AI · Artificial Intelligence ·arxiv2605.21347· PDF 用 scout-investigator 多 agent 在轨迹语料上提假设、验假设并生成证据报告定位 LLM agent 系统性失效模式。multi-agentagent调试trace分析摘要LLM agent 失效诊断常依赖人工抽查少量轨迹难以发现跨样本的系统性模式。Insights Generator 将问题形式化为语料级轨迹诊断针对整批执行轨迹提出并检验假设生成带证据的自然语言洞察报告。其 scout-investigator 多智能体架构在报告深度、证据质量和检测覆盖上表现领先人类专家据此改进 scaffold 后性能较原始基线提升 30.4 个百分点编码 agent 也获得稳定增益。评分细项rel 9.0 / nov 7.5 / prac 8.5 / author 5.55. Decoupling Communication from Policy: Robust MARL under Bandwidth Constraints评分7.7·方向cs.MA · Multiagent Systems ·arxiv2605.21085· PDF 提出β统一稀疏度/轮次/消息维度约束并用SLIM解耦通信通道与策略隐表示以稳住带宽受限MARL性能。多智能体MARL通信约束带宽优化摘要面向带宽受限的 MARL作者指出许多通信架构把策略表示与通信消息耦合压缩带宽会连带削弱策略能力。为此提出统一约束指标 β将稀疏度、通信轮数和消息维度归一化比较并设计 SLIM将通信路径与策略潜表示解耦在保留步内通信的同时隔离带宽与策略容量的影响。该方法在多个部分可观测基准上达到 SOTA并在低带宽下仅有轻微性能下降。评分细项rel 8.5 / nov 7.5 / prac 7.0 / author 5.06. PALS: Power-Aware LLM Serving for Mixture-of-Experts Models评分8.0·方向cs.AI · Artificial Intelligence ·arxiv2605.21427· PDF PALS 在 vLLM 中联合调节 GPU 功耗上限与 batch size为 MoE 服务在功率约束下提升能效与 QoS。LLM servingMoE推理优化能效摘要针对数据中心中 LLM 推理高能耗、现有服务系统很少把 GPU 功率当作可控变量的问题PALS 将 power cap 与 batch size 等软件参数联合优化。系统结合轻量离线功耗—性能模型与反馈控制器在满足吞吐目标的同时提升能效已集成到 vLLM无需重训或改 API。跨多 GPU、dense 与 MoE 模型实验显示PALS 最高提升 26.3% 能效在功率受限下将 QoS 违约降低 4 到 7 倍并可跟踪动态功率预算。评分细项rel 8.5 / nov 7.0 / prac 9.0 / author 5.57. AutoRPA: Efficient GUI Automation through LLM-Driven Code Synthesis from Interactions评分7.7·方向cs.AI · Artificial Intelligence ·arxiv2605.21082· PDF AutoRPA 用 translator-builder 管线把 ReAct 交互轨迹蒸馏成 RPA 函数并用执行校验加回退修复代码。GUI agentRPA代码合成agentic workflow摘要ReAct 式 GUI agent 适合复杂交互但对重复性任务反复调用 LLM 推理成本过高传统 RPA 高效却依赖大量人工开发。AutoRPA 试图把 ReAct agent 的决策逻辑自动蒸馏为可复用 RPA 函数先由 translator-builder 流水线把硬编码动作转成软编码过程再基于多轨迹检索增强生成稳健代码并在验证阶段结合 RPA 执行与 ReAct 回退进行修复。实验表明其生成函数在相似 GUI 任务上可用并将 token 消耗降低 82%–96%。评分细项rel 8.0 / nov 7.5 / prac 8.5 / author 5.08. Conditional Equivalence of DPO and RLHF: Implicit Assumption, Failure Modes, and Provable Alignment评分7.6·方向cs.AI · Artificial Intelligence ·arxiv2605.20834· PDF 证明DPO与RLHF等价需满足隐藏偏好假设并给出带约束的CPO以避免偏好反转式收敛。LLM后训练DPORLHF摘要本文证明 DPO 与 RLHF 的“等价性”并非普适而依赖一个常被违背的隐含假设RLHF 最优策略必须偏好人类偏好回答。假设失效时DPO 实际优化的是相对参考策略的优势可能在 DPO loss 下降的同时更偏向劣质回答。作者刻画了该失效条件与不良解空间并提出带约束的偏好优化 CPO为对齐提供可证明保证几何上将 DPO 解释为目标可能为负的 soft margin ranking。实验显示 CPO 达到 SOTA。评分细项rel 8.4 / nov 7.6 / prac 6.3 / author 5.09. Declarative Data Services: Structured Agentic Discovery for Composing Data Systems评分7.5·方向cs.AI · Artificial Intelligence ·arxiv2605.20690· PDF 用四层typed contract把agentic search分解为意图、算子DAG、系统技能与运行时归因组合数据后端。agentic workflow数据系统多系统编排摘要论文关注将 agentic discovery 用于多系统数据后端组合时因搜索空间异构、验证依赖真实部署、预训练缺少组合知识而难以收敛。作者提出 Declarative Data Services (DDS)以意图、算子 DAG、系统技能和运行时归因四层 typed contract 将全局搜索拆为有界子搜索并用内联技能引用前传知识、typed 信号回传错误。在交易后端任务上DDS 能收敛到可运行栈且运行失败可沉淀为后续部署可复用的 skill patch。评分细项rel 8.0 / nov 7.0 / prac 7.9 / author 5.010. Evaluating Temporal Semantic Caching and Workflow Optimization in Agentic Plan-Execute Pipelines评分7.3·方向cs.AI · Artificial Intelligence ·arxiv2605.20630· PDF 提出时序语义缓存、工具发现缓存和依赖感知并行执行加速 plan-execute agent 流水线。agentic workflow缓存推理加速摘要针对工业资产运维中 plan-execute agent 流水线延迟高的问题作者在 AssetOpsBench 上评估发现传统 KV cache 复用和基于 embedding 的 semantic caching 会因时间、设备与传感器参数变化而失效。论文提出 temporal semantic cache并结合 MCP 工作流优化如磁盘支持的工具发现缓存和依赖感知并行执行。实验显示工作流优化带来 1.67x 加速、端到端中位延迟下降约 40%cache 命中时中位加速达 30.6x并揭示纯语义缓存对参数密集查询的可靠性风险。评分细项rel 7.6 / nov 6.8 / prac 8.2 / author 5.0 速览 · 其他通过评估的工作8 篇一句话扫读按评分从高到低点击标题跳转 arxiv。q-fin.PM7.5Continuous Timing Signals for Growth-Defensive Style Allocation: Factor Attribution, Risk Matching, and Out-of-Sample Evidence· 将 rate relief、VIX 缓释和 drawdown 信号经 softplustanh 映射为 G/D 风格轮动权重。q-fin.PM7.0Portfolio Preference Elicitation in Institutional Crossing Markets· 在机构 crossing 市场中联合 price-directed demand query 和 value query做组合级偏好 elicitation。cs.MA6.7What Do Agents Communicate? Characterizing Information Exchange in Multi-Agent Systems· 分析代理间传递的reasoning与verification信息并用CARA强制补全关键字段恢复失败协作轨迹。cs.AI6.8Conflict-Aware Additive Guidance for Flow Models under Compositional Rewards· 提出g^car在flow/diffusion引导采样中检测并化解梯度冲突减少多奖励组合时的off-manifold drift。cs.CV6.7One-Step Distillation of Discrete Diffusion Image Generators via Fixed-Point Iteration· 提出Fixed-Point Distillation对学生一步草稿做局部腐化再用教师单步修正并以multi-bandwidth drift loss蒸馏离散扩散。cs.MA6.0Agentic Agile-V: From Vibe Coding to Verified Engineering in Software and Hardware Development· 提出Agentic Agile-V流程用SCOPE-V闭环把仓库检索、工具调用、证明与验证串成开发管线。cs.CV6.2Reducing Object Hallucination in LVLMs via Emphasizing Image-negative Tokens· 按图像正相关、不变、负相关三类 token 重加权训练并过滤高幻觉训练样本。cs.CV6.0StreamGVE: Training-Free Video Editing via Few-Step Streaming Video Generation· 基于流式生成模型做few-step视频编辑加入dual-branch fast sampling、self-attention bridge与cross-attention grounding。数据源arxiv.org · 评分与中文摘要由 LLM 自动生成仅供初筛参考
05-21 · LLM 最新论文速览
发布时间:2026/5/21 23:12:37
今日候选池89篇硬过滤 LLM 打分后通过评估18篇精选 Top-10另列 8 篇速览。关注方向多 Agent 系统 / LLM 后训练RL/SFT / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易 精选1. LamPO: A Lambda Style Policy Optimization for Reasoning Language Models评分8.4·方向cs.CL · Computation and Language ·arxiv2605.21235· PDF 在 RLVR 中用 Pairwise Decomposed Advantage 替代 GRPO 组优势并加 ROUGE-L 稠密奖励做细粒度信用分配。RLVR后训练推理模型摘要针对 RLVR 中 GRPO 仅用组级标量优势、难以区分细微推理质量差异的问题LamPO 提出成对分解优势Pairwise Decomposed Advantage在组内聚合候选答案的两两奖励差并结合序列 log-prob 差异进行置信加权保持 critic-free 与 clipped PPO 结构有参考解时再加入基于 ROUGE-L 的稠密辅助奖励。Qwen3 与 Phi-4-mini 在 AIME、MATH-500、GPQA 上均稳定优于 GRPO训练更稳、样本效率更高。评分细项rel 9.2 / nov 7.8 / prac 7.7 / author 6.02. Multi-agent Collaboration with State Management评分8.3·方向cs.MA · Multiagent Systems ·arxiv2605.20563· PDF STORM在共享代码库上做状态中介与写时冲突检测替代git worktree式隔离以降低多代理集成失败。多智能体Coding Agent状态管理协作系统摘要多智能体并发修改共享代码库时工作区隔离虽能避免直接冲突却把问题推迟到昂贵的合并阶段。STORM 通过显式状态管理统一 agent 与共享工作区的交互保证每个 agent 始终基于一致视图工作并在写入时检测和解决冲突。它可无缝接入现有多智能体系统在 Commit0 与 PaperBench 上分别较 git-worktree 基线提升 18.7 和 1.4 分成本效率相当或更优。评分细项rel 9.0 / nov 7.5 / prac 8.5 / author 6.03. Mem-π ππ: Adaptive Memory through Learning When and What to Generate评分8.3·方向cs.CL · Computation and Language ·arxiv2605.21463· PDF 提出 Mem-π用决策-内容解耦 RL 同时学习何时生成记忆提示与生成什么提示替代检索式 agent memory。agentic强化学习记忆机制摘要Mem-π 将 agent 记忆从“检索静态条目”改为“按需生成指导”。它使用独立于下游 agent 的语言/视觉语言模型根据当前上下文联合学习何时生成、生成什么并用决策—内容解耦的强化学习目标让模型在无益时选择 abstain、在需要时输出简洁有效提示。该方法在网页导航、终端工具使用和文本具身交互等基准上持续超过检索式与既有 RL 优化记忆方法网页导航相对提升超 30%。评分细项rel 9.0 / nov 8.0 / prac 8.0 / author 5.04. Insights Generator: Systematic Corpus-Level Trace Diagnostics for LLM Agents评分8.3·方向cs.AI · Artificial Intelligence ·arxiv2605.21347· PDF 用 scout-investigator 多 agent 在轨迹语料上提假设、验假设并生成证据报告定位 LLM agent 系统性失效模式。multi-agentagent调试trace分析摘要LLM agent 失效诊断常依赖人工抽查少量轨迹难以发现跨样本的系统性模式。Insights Generator 将问题形式化为语料级轨迹诊断针对整批执行轨迹提出并检验假设生成带证据的自然语言洞察报告。其 scout-investigator 多智能体架构在报告深度、证据质量和检测覆盖上表现领先人类专家据此改进 scaffold 后性能较原始基线提升 30.4 个百分点编码 agent 也获得稳定增益。评分细项rel 9.0 / nov 7.5 / prac 8.5 / author 5.55. Decoupling Communication from Policy: Robust MARL under Bandwidth Constraints评分7.7·方向cs.MA · Multiagent Systems ·arxiv2605.21085· PDF 提出β统一稀疏度/轮次/消息维度约束并用SLIM解耦通信通道与策略隐表示以稳住带宽受限MARL性能。多智能体MARL通信约束带宽优化摘要面向带宽受限的 MARL作者指出许多通信架构把策略表示与通信消息耦合压缩带宽会连带削弱策略能力。为此提出统一约束指标 β将稀疏度、通信轮数和消息维度归一化比较并设计 SLIM将通信路径与策略潜表示解耦在保留步内通信的同时隔离带宽与策略容量的影响。该方法在多个部分可观测基准上达到 SOTA并在低带宽下仅有轻微性能下降。评分细项rel 8.5 / nov 7.5 / prac 7.0 / author 5.06. PALS: Power-Aware LLM Serving for Mixture-of-Experts Models评分8.0·方向cs.AI · Artificial Intelligence ·arxiv2605.21427· PDF PALS 在 vLLM 中联合调节 GPU 功耗上限与 batch size为 MoE 服务在功率约束下提升能效与 QoS。LLM servingMoE推理优化能效摘要针对数据中心中 LLM 推理高能耗、现有服务系统很少把 GPU 功率当作可控变量的问题PALS 将 power cap 与 batch size 等软件参数联合优化。系统结合轻量离线功耗—性能模型与反馈控制器在满足吞吐目标的同时提升能效已集成到 vLLM无需重训或改 API。跨多 GPU、dense 与 MoE 模型实验显示PALS 最高提升 26.3% 能效在功率受限下将 QoS 违约降低 4 到 7 倍并可跟踪动态功率预算。评分细项rel 8.5 / nov 7.0 / prac 9.0 / author 5.57. AutoRPA: Efficient GUI Automation through LLM-Driven Code Synthesis from Interactions评分7.7·方向cs.AI · Artificial Intelligence ·arxiv2605.21082· PDF AutoRPA 用 translator-builder 管线把 ReAct 交互轨迹蒸馏成 RPA 函数并用执行校验加回退修复代码。GUI agentRPA代码合成agentic workflow摘要ReAct 式 GUI agent 适合复杂交互但对重复性任务反复调用 LLM 推理成本过高传统 RPA 高效却依赖大量人工开发。AutoRPA 试图把 ReAct agent 的决策逻辑自动蒸馏为可复用 RPA 函数先由 translator-builder 流水线把硬编码动作转成软编码过程再基于多轨迹检索增强生成稳健代码并在验证阶段结合 RPA 执行与 ReAct 回退进行修复。实验表明其生成函数在相似 GUI 任务上可用并将 token 消耗降低 82%–96%。评分细项rel 8.0 / nov 7.5 / prac 8.5 / author 5.08. Conditional Equivalence of DPO and RLHF: Implicit Assumption, Failure Modes, and Provable Alignment评分7.6·方向cs.AI · Artificial Intelligence ·arxiv2605.20834· PDF 证明DPO与RLHF等价需满足隐藏偏好假设并给出带约束的CPO以避免偏好反转式收敛。LLM后训练DPORLHF摘要本文证明 DPO 与 RLHF 的“等价性”并非普适而依赖一个常被违背的隐含假设RLHF 最优策略必须偏好人类偏好回答。假设失效时DPO 实际优化的是相对参考策略的优势可能在 DPO loss 下降的同时更偏向劣质回答。作者刻画了该失效条件与不良解空间并提出带约束的偏好优化 CPO为对齐提供可证明保证几何上将 DPO 解释为目标可能为负的 soft margin ranking。实验显示 CPO 达到 SOTA。评分细项rel 8.4 / nov 7.6 / prac 6.3 / author 5.09. Declarative Data Services: Structured Agentic Discovery for Composing Data Systems评分7.5·方向cs.AI · Artificial Intelligence ·arxiv2605.20690· PDF 用四层typed contract把agentic search分解为意图、算子DAG、系统技能与运行时归因组合数据后端。agentic workflow数据系统多系统编排摘要论文关注将 agentic discovery 用于多系统数据后端组合时因搜索空间异构、验证依赖真实部署、预训练缺少组合知识而难以收敛。作者提出 Declarative Data Services (DDS)以意图、算子 DAG、系统技能和运行时归因四层 typed contract 将全局搜索拆为有界子搜索并用内联技能引用前传知识、typed 信号回传错误。在交易后端任务上DDS 能收敛到可运行栈且运行失败可沉淀为后续部署可复用的 skill patch。评分细项rel 8.0 / nov 7.0 / prac 7.9 / author 5.010. Evaluating Temporal Semantic Caching and Workflow Optimization in Agentic Plan-Execute Pipelines评分7.3·方向cs.AI · Artificial Intelligence ·arxiv2605.20630· PDF 提出时序语义缓存、工具发现缓存和依赖感知并行执行加速 plan-execute agent 流水线。agentic workflow缓存推理加速摘要针对工业资产运维中 plan-execute agent 流水线延迟高的问题作者在 AssetOpsBench 上评估发现传统 KV cache 复用和基于 embedding 的 semantic caching 会因时间、设备与传感器参数变化而失效。论文提出 temporal semantic cache并结合 MCP 工作流优化如磁盘支持的工具发现缓存和依赖感知并行执行。实验显示工作流优化带来 1.67x 加速、端到端中位延迟下降约 40%cache 命中时中位加速达 30.6x并揭示纯语义缓存对参数密集查询的可靠性风险。评分细项rel 7.6 / nov 6.8 / prac 8.2 / author 5.0 速览 · 其他通过评估的工作8 篇一句话扫读按评分从高到低点击标题跳转 arxiv。q-fin.PM7.5Continuous Timing Signals for Growth-Defensive Style Allocation: Factor Attribution, Risk Matching, and Out-of-Sample Evidence· 将 rate relief、VIX 缓释和 drawdown 信号经 softplustanh 映射为 G/D 风格轮动权重。q-fin.PM7.0Portfolio Preference Elicitation in Institutional Crossing Markets· 在机构 crossing 市场中联合 price-directed demand query 和 value query做组合级偏好 elicitation。cs.MA6.7What Do Agents Communicate? Characterizing Information Exchange in Multi-Agent Systems· 分析代理间传递的reasoning与verification信息并用CARA强制补全关键字段恢复失败协作轨迹。cs.AI6.8Conflict-Aware Additive Guidance for Flow Models under Compositional Rewards· 提出g^car在flow/diffusion引导采样中检测并化解梯度冲突减少多奖励组合时的off-manifold drift。cs.CV6.7One-Step Distillation of Discrete Diffusion Image Generators via Fixed-Point Iteration· 提出Fixed-Point Distillation对学生一步草稿做局部腐化再用教师单步修正并以multi-bandwidth drift loss蒸馏离散扩散。cs.MA6.0Agentic Agile-V: From Vibe Coding to Verified Engineering in Software and Hardware Development· 提出Agentic Agile-V流程用SCOPE-V闭环把仓库检索、工具调用、证明与验证串成开发管线。cs.CV6.2Reducing Object Hallucination in LVLMs via Emphasizing Image-negative Tokens· 按图像正相关、不变、负相关三类 token 重加权训练并过滤高幻觉训练样本。cs.CV6.0StreamGVE: Training-Free Video Editing via Few-Step Streaming Video Generation· 基于流式生成模型做few-step视频编辑加入dual-branch fast sampling、self-attention bridge与cross-attention grounding。数据源arxiv.org · 评分与中文摘要由 LLM 自动生成仅供初筛参考