05-21 · LLM 最新论文速览

发布时间：2026/5/21 23:12:37

今日候选池89篇硬过滤 LLM 打分后通过评估18篇精选 Top-10另列 8 篇速览。关注方向多 Agent 系统 / LLM 后训练RL/SFT / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易精选1. LamPO: A Lambda Style Policy Optimization for Reasoning Language Models评分8.4·方向cs.CL · Computation and Language ·arxiv2605.21235· PDF 在 RLVR 中用 Pairwise Decomposed Advantage 替代 GRPO 组优势并加 ROUGE-L 稠密奖励做细粒度信用分配。RLVR后训练推理模型摘要针对 RLVR 中 GRPO 仅用组级标量优势、难以区分细微推理质量差异的问题LamPO 提出成对分解优势Pairwise Decomposed Advantage在组内聚合候选答案的两两奖励差并结合序列 log-prob 差异进行置信加权保持 critic-free 与 clipped PPO 结构有参考解时再加入基于 ROUGE-L 的稠密辅助奖励。Qwen3 与 Phi-4-mini 在 AIME、MATH-500、GPQA 上均稳定优于 GRPO训练更稳、样本效率更高。评分细项rel 9.2 / nov 7.8 / prac 7.7 / author 6.02. Multi-agent Collaboration with State Management评分8.3·方向cs.MA · Multiagent Systems ·arxiv2605.20563· PDF STORM在共享代码库上做状态中介与写时冲突检测替代git worktree式隔离以降低多代理集成失败。多智能体Coding Agent状态管理协作系统摘要多智能体并发修改共享代码库时工作区隔离虽能避免直接冲突却把问题推迟到昂贵的合并阶段。STORM 通过显式状态管理统一 agent 与共享工作区的交互保证每个 agent 始终基于一致视图工作并在写入时检测和解决冲突。它可无缝接入现有多智能体系统在 Commit0 与 PaperBench 上分别较 git-worktree 基线提升 18.7 和 1.4 分成本效率相当或更优。评分细项rel 9.0 / nov 7.5 / prac 8.5 / author 6.03. Mem-π ππ: Adaptive Memory through Learning When and What to Generate评分8.3·方向cs.CL · Computation and Language ·arxiv2605.21463· PDF 提出 Mem-π用决策-内容解耦 RL 同时学习何时生成记忆提示与生成什么提示替代检索式 agent memory。agentic强化学习记忆机制摘要Mem-π 将 agent 记忆从“检索静态条目”改为“按需生成指导”。它使用独立于下游 agent 的语言/视觉语言模型根据当前上下文联合学习何时生成、生成什么并用决策—内容解耦的强化学习目标让模型在无益时选择 abstain、在需要时输出简洁有效提示。该方法在网页导航、终端工具使用和文本具身交互等基准上持续超过检索式与既有 RL 优化记忆方法网页导航相对提升超 30%。评分细项rel 9.0 / nov 8.0 / prac 8.0 / author 5.04. Insights Generator: Systematic Corpus-Level Trace Diagnostics for LLM Agents评分8.3·方向cs.AI · Artificial Intelligence ·arxiv2605.21347· PDF 用 scout-investigator 多 agent 在轨迹语料上提假设、验假设并生成证据报告定位 LLM agent 系统性失效模式。multi-agentagent调试trace分析摘要LLM agent 失效诊断常依赖人工抽查少量轨迹难以发现跨样本的系统性模式。Insights Generator 将问题形式化为语料级轨迹诊断针对整批执行轨迹提出并检验假设生成带证据的自然语言洞察报告。其 scout-investigator 多智能体架构在报告深度、证据质量和检测覆盖上表现领先人类专家据此改进 scaffold 后性能较原始基线提升 30.4 个百分点编码 agent 也获得稳定增益。评分细项rel 9.0 / nov 7.5 / prac 8.5 / author 5.55. Decoupling Communication from Policy: Robust MARL under Bandwidth Constraints评分7.7·方向cs.MA · Multiagent Systems ·arxiv2605.21085· PDF 提出β统一稀疏度/轮次/消息维度约束并用SLIM解耦通信通道与策略隐表示以稳住带宽受限MARL性能。多智能体MARL通信约束带宽优化摘要面向带宽受限的 MARL作者指出许多通信架构把策略表示与通信消息耦合压缩带宽会连带削弱策略能力。为此提出统一约束指标 β将稀疏度、通信轮数和消息维度归一化比较并设计 SLIM将通信路径与策略潜表示解耦在保留步内通信的同时隔离带宽与策略容量的影响。该方法在多个部分可观测基准上达到 SOTA并在低带宽下仅有轻微性能下降。评分细项rel 8.5 / nov 7.5 / prac 7.0 / author 5.06. PALS: Power-Aware LLM Serving for Mixture-of-Experts Models评分8.0·方向cs.AI · Artificial Intelligence ·arxiv2605.21427· PDF PALS 在 vLLM 中联合调节 GPU 功耗上限与 batch size为 MoE 服务在功率约束下提升能效与 QoS。LLM servingMoE推理优化能效摘要针对数据中心中 LLM 推理高能耗、现有服务系统很少把 GPU 功率当作可控变量的问题PALS 将 power cap 与 batch size 等软件参数联合优化。系统结合轻量离线功耗—性能模型与反馈控制器在满足吞吐目标的同时提升能效已集成到 vLLM无需重训或改 API。跨多 GPU、dense 与 MoE 模型实验显示PALS 最高提升 26.3% 能效在功率受限下将 QoS 违约降低 4 到 7 倍并可跟踪动态功率预算。评分细项rel 8.5 / nov 7.0 / prac 9.0 / author 5.57. AutoRPA: Efficient GUI Automation through LLM-Driven Code Synthesis from Interactions评分7.7·方向cs.AI · Artificial Intelligence ·arxiv2605.21082· PDF AutoRPA 用 translator-builder 管线把 ReAct 交互轨迹蒸馏成 RPA 函数并用执行校验加回退修复代码。GUI agentRPA代码合成agentic workflow摘要ReAct 式 GUI agent 适合复杂交互但对重复性任务反复调用 LLM 推理成本过高传统 RPA 高效却依赖大量人工开发。AutoRPA 试图把 ReAct agent 的决策逻辑自动蒸馏为可复用 RPA 函数先由 translator-builder 流水线把硬编码动作转成软编码过程再基于多轨迹检索增强生成稳健代码并在验证阶段结合 RPA 执行与 ReAct 回退进行修复。实验表明其生成函数在相似 GUI 任务上可用并将 token 消耗降低 82%–96%。评分细项rel 8.0 / nov 7.5 / prac 8.5 / author 5.08. Conditional Equivalence of DPO and RLHF: Implicit Assumption, Failure Modes, and Provable Alignment评分7.6·方向cs.AI · Artificial Intelligence ·arxiv2605.20834· PDF 证明DPO与RLHF等价需满足隐藏偏好假设并给出带约束的CPO以避免偏好反转式收敛。LLM后训练DPORLHF摘要本文证明 DPO 与 RLHF 的“等价性”并非普适而依赖一个常被违背的隐含假设RLHF 最优策略必须偏好人类偏好回答。假设失效时DPO 实际优化的是相对参考策略的优势可能在 DPO loss 下降的同时更偏向劣质回答。作者刻画了该失效条件与不良解空间并提出带约束的偏好优化 CPO为对齐提供可证明保证几何上将 DPO 解释为目标可能为负的 soft margin ranking。实验显示 CPO 达到 SOTA。评分细项rel 8.4 / nov 7.6 / prac 6.3 / author 5.09. Declarative Data Services: Structured Agentic Discovery for Composing Data Systems评分7.5·方向cs.AI · Artificial Intelligence ·arxiv2605.20690· PDF 用四层typed contract把agentic search分解为意图、算子DAG、系统技能与运行时归因组合数据后端。agentic workflow数据系统多系统编排摘要论文关注将 agentic discovery 用于多系统数据后端组合时因搜索空间异构、验证依赖真实部署、预训练缺少组合知识而难以收敛。作者提出 Declarative Data Services (DDS)以意图、算子 DAG、系统技能和运行时归因四层 typed contract 将全局搜索拆为有界子搜索并用内联技能引用前传知识、typed 信号回传错误。在交易后端任务上DDS 能收敛到可运行栈且运行失败可沉淀为后续部署可复用的 skill patch。评分细项rel 8.0 / nov 7.0 / prac 7.9 / author 5.010. Evaluating Temporal Semantic Caching and Workflow Optimization in Agentic Plan-Execute Pipelines评分7.3·方向cs.AI · Artificial Intelligence ·arxiv2605.20630· PDF 提出时序语义缓存、工具发现缓存和依赖感知并行执行加速 plan-execute agent 流水线。agentic workflow缓存推理加速摘要针对工业资产运维中 plan-execute agent 流水线延迟高的问题作者在 AssetOpsBench 上评估发现传统 KV cache 复用和基于 embedding 的 semantic caching 会因时间、设备与传感器参数变化而失效。论文提出 temporal semantic cache并结合 MCP 工作流优化如磁盘支持的工具发现缓存和依赖感知并行执行。实验显示工作流优化带来 1.67x 加速、端到端中位延迟下降约 40%cache 命中时中位加速达 30.6x并揭示纯语义缓存对参数密集查询的可靠性风险。评分细项rel 7.6 / nov 6.8 / prac 8.2 / author 5.0 速览 · 其他通过评估的工作8 篇一句话扫读按评分从高到低点击标题跳转 arxiv。q-fin.PM7.5Continuous Timing Signals for Growth-Defensive Style Allocation: Factor Attribution, Risk Matching, and Out-of-Sample Evidence· 将 rate relief、VIX 缓释和 drawdown 信号经 softplustanh 映射为 G/D 风格轮动权重。q-fin.PM7.0Portfolio Preference Elicitation in Institutional Crossing Markets· 在机构 crossing 市场中联合 price-directed demand query 和 value query做组合级偏好 elicitation。cs.MA6.7What Do Agents Communicate? Characterizing Information Exchange in Multi-Agent Systems· 分析代理间传递的reasoning与verification信息并用CARA强制补全关键字段恢复失败协作轨迹。cs.AI6.8Conflict-Aware Additive Guidance for Flow Models under Compositional Rewards· 提出g^car在flow/diffusion引导采样中检测并化解梯度冲突减少多奖励组合时的off-manifold drift。cs.CV6.7One-Step Distillation of Discrete Diffusion Image Generators via Fixed-Point Iteration· 提出Fixed-Point Distillation对学生一步草稿做局部腐化再用教师单步修正并以multi-bandwidth drift loss蒸馏离散扩散。cs.MA6.0Agentic Agile-V: From Vibe Coding to Verified Engineering in Software and Hardware Development· 提出Agentic Agile-V流程用SCOPE-V闭环把仓库检索、工具调用、证明与验证串成开发管线。cs.CV6.2Reducing Object Hallucination in LVLMs via Emphasizing Image-negative Tokens· 按图像正相关、不变、负相关三类 token 重加权训练并过滤高幻觉训练样本。cs.CV6.0StreamGVE: Training-Free Video Editing via Few-Step Streaming Video Generation· 基于流式生成模型做few-step视频编辑加入dual-branch fast sampling、self-attention bridge与cross-attention grounding。数据源arxiv.org · 评分与中文摘要由 LLM 自动生成仅供初筛参考

babel-plugin-jsx 源码深度剖析：理解 Babel 插件开发的核心技术

babel-plugin-jsx 源码深度剖析：理解 Babel 插件开发的核心技术【免费下载链接】babel-plugin-jsx JSX for Vue 3 项目地址: https://gitcode.com/gh_mirrors/ba/babel-plugin-jsx babel-plugin-jsx 是 Vue 3 官方提供的 JSX 语法转换工具，它能将…

2026/5/21 23:12:17 阅读更多

真实有效！AI率92%暴降至5%！实测10款降AIGC网站!免费额度狂薅攻略

2026 年各大高校和期刊平台的 AI 检测系统又升级了，知网 AIGC、维普 AI、万方智能检测三大平台的算法迭代速度越来越快，上个月能蒙混过关的改写方式，这个月直接就会被标红预警。单纯的同义词替换、语序调整早就不管用了，想要有效降…

2026/5/21 23:11:36 阅读更多

2026亲测：专业降AIGC平台TOP1推荐

2026 年降 AIGC 工具已经从“机械式语义替换”进化为多维度智能优化系统，核心评测指标涵盖 AI 痕迹清除效率、专业表达准确性、格式结构完整性、长段落逻辑合理性、内容适配多样性以及高校检测兼容性。本次测评深入分析 5 款主流工具，测试范围覆盖中英文…

2026/5/21 23:11:36 阅读更多

SpringBlade负载均衡与灰度发布完全指南：如何构建高可用微服务架构

SpringBlade负载均衡与灰度发布完全指南：如何构建高可用微服务架构【免费下载链接】blade-tool SpringBlade 4.0 架构核心工具包，SpringBlade 是一个由商业级项目升级优化而来的微服务架构，采用Spring Boot 3.5 、Spring Cloud 2025 等核心技…

2026/5/21 23:53:55 阅读更多

SchemaCrawler：终极数据库模式发现与理解工具完全指南

SchemaCrawler：终极数据库模式发现与理解工具完全指南【免费下载链接】SchemaCrawler Free database schema discovery and comprehension tool 项目地址: https://gitcode.com/gh_mirrors/sc/SchemaCrawler 在当今数据驱动的时代，数据库模式发现…

2026/5/21 23:53:15 阅读更多

No!! MeiryoUI终极指南：3步恢复Windows界面字体自定义功能

No!! MeiryoUI终极指南：3步恢复Windows界面字体自定义功能【免费下载链接】noMeiryoUI No!! MeiryoUI is Windows system font setting tool on Windows 8.1/10/11. 项目地址: https://gitcode.com/gh_mirrors/no/noMeiryoUI 你是否曾经为Windows 8.1/10/11…

2026/5/21 23:53:15 阅读更多

Android树状视图终极指南：GysoTreeView全方位解析与实战教程

Android树状视图终极指南：GysoTreeView全方位解析与实战教程【免费下载链接】android-thinkmap-treeview Tree View; Mind map; Think map; tree map; custom view; 自定义;关系图;树状图；思维导图；组织机构图；层次图项目地址…

2026/5/21 23:52:14 阅读更多

洛圣都生存指南：YimMenu开源游戏增强工具与安全防护系统深度解析

洛圣都生存指南：YimMenu开源游戏增强工具与安全防护系统深度解析【免费下载链接】YimMenu YimMenu, a GTA V menu protecting against a wide ranges of the public crashes and improving the overall experience. 项目地址: https://gitcode.com/GitHub_Trendi…

2026/5/21 23:52:14 阅读更多

OpenClaw+Hermes +Vibe Coding本地部署｜论文自动化｜知识工作流

在人工智能快速重塑科研范式的背景下，大语言模型、Agent系统与自动化科研工作流，正在深刻改变文献阅读、代码开发、数据分析、论文写作与科研协作的底层方式。面对模型快速迭代、工具形态持续演进的新局面，科研人员亟需从“会使用AI”进一步升…

2026/5/21 23:52:14 阅读更多

别只刷固件了！用MissionPlanner搞定四旋翼‘飘移’问题，校准compass_mot全流程

四旋翼飞行品质优化：MissionPlanner高级校准实战指南当你的四旋翼无人机已经能够稳定起飞，却在定高模式下出现难以解释的飘移现象时，这往往意味着需要进入更深层次的飞控调校阶段。许多飞手在完成基础校准后便止步不前，殊不知电机…

2026/5/21 0:00:23 阅读更多

科研学术篇---论文搜索方法

高效搜集和研读论文，是构建扎实知识体系的基石。要想做到“高效”与“高质”并重，需要把整个过程当作一个闭环系统来优化——从目标锁定、来源筛选、检索策略，到快速粗筛、深度内化、持续追踪，每一步都有对应的工具和心法。下面逐…

2026/5/21 0:01:25 阅读更多

YOLOv11城市道路摩托车与自行车目标检测数据集-1569张-motorcycle-1_2

YOLOv11城市道路摩托车与自行车目标检测数据集 📊 数据集基本信息目标类别： [‘bike’, ‘motorcycle’]中文类别：[‘自行车’, ‘摩托车’]训练集：1374 张验证集：130 张测试集：65 张总计：1569…

2026/5/21 0:03:28 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/21 8:30:37 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/21 16:37:36 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/21 2:29:29 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/21 8:30:37 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/21 5:00:59 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/21 1:50:14 阅读更多

相关文章

babel-plugin-jsx 源码深度剖析：理解 Babel 插件开发的核心技术

真实有效！AI率92%暴降至5%！实测10款降AIGC网站!免费额度狂薅攻略

2026亲测：专业降AIGC平台TOP1推荐

SpringBlade负载均衡与灰度发布完全指南：如何构建高可用微服务架构

SchemaCrawler：终极数据库模式发现与理解工具完全指南

No!! MeiryoUI终极指南：3步恢复Windows界面字体自定义功能

Android树状视图终极指南：GysoTreeView全方位解析与实战教程

洛圣都生存指南：YimMenu开源游戏增强工具与安全防护系统深度解析

OpenClaw+Hermes +Vibe Coding本地部署｜论文自动化｜知识工作流

别只刷固件了！用MissionPlanner搞定四旋翼‘飘移’问题，校准compass_mot全流程

科研学术篇---论文搜索方法

YOLOv11城市道路摩托车与自行车目标检测数据集-1569张-motorcycle-1_2

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

py每日spider案例之某website之xin东方选课搜索接口(难度一般 扣取代码即可)

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)