报名|ACL‘26 美团中稿精选:从能力评测到推理优化,构建生成新范式 ACLAnnual Meeting of the Association for Computational Linguistics是计算语言学和自然语言处理NLP领域的国际顶级学术会议。自 1962 年创办以来ACL 已成为 NLP 领域规模最大、影响力最高的学术盛会汇聚了来自全球学术界和工业界的顶尖研究者。本文将分享美团技术团队被 ACL 顶会收录的其中 6 篇论文技术方向覆盖大模型评测、复杂流程推理、竞赛级数学思维优化、强化学习优化、生成式推荐等领域欢迎一起交流学习01 CoreCodeBench: Decoupling Code Intelligence via Fine-Grained Repository-Level TasksCoreCodeBench通过细粒度仓库级任务解耦代码智能论文下载PDF论文简介本论文提出了 CoreCodeBench一种面向大语言模型编程能力的细粒度评测基准。该基准利用 COREPIPE 框架从 12 个 Python 开源库自动生成 1,524 个结构化任务涵盖开发、修复、测试驱动开发等多种软件工程场景有效区分不同认知负载并动态调整任务复杂度。实验表明其有效性达 78.55%显著优于现有方法揭示了模型在不同任务类型上的能力错配现象。CoreCodeBench 还支持多任务组合评测模拟真实开发环境具备高自动化、强鲁棒性和可复现性为代码智能评测提供了更全面、精准的框架。02 SOP-Maze: Evaluating Large Language Models on Complicated Business Standard Operating ProceduresSOP-Maze评估大语言模型在复杂业务标准操作流程上的表现论文下载PDF论文简介随着大模型越来越多地被用作各领域的智能体现有的评测大多关注它们遵循指令、做决策的能力但真实业务场景往往涉及复杂的标准操作流程SOP而这方面的能力评估还没有被充分探索。为填补这一空白研究者基于真实业务数据构建了 SOP-Maze包含来自 23 个复杂 SOP 场景的 397 个实例和 3422 个子任务。论文把 SOP 任务分成两大类「侧根系统」LRS代表选项众多、需要精准选择的宽广型任务「主根系统」HRS则强调带有复杂分支的深度逻辑推理。实验结果显示几乎所有最先进的模型在 SOP-Maze 上都表现吃力。作者归纳出三类主要错误一是「路线盲区」难以遵循流程二是「对话脆弱性」无法处理真实对话中的细微之处三是「计算错误」在复杂语境下的时间或算术推理出错。简单来说这是一个聚焦「模型能不能真正照着复杂业务流程办事」的评测既考验广度也考验深度结果表明当前模型在这方面还有明显短板。03 AMO-Bench: Large Language Models Still Struggle in High School Math CompetitionsAMO-Bench大语言模型在高中数学竞赛中仍面临挑战论文下载PDF论文简介本文提出 AMO-Bench一个包含 50 道人工命题的极高难度数学推理基准。鉴于顶尖大模型在 AIME 等现有竞赛上性能趋于饱和本基准确保经专家验证达国际奥数IMO或更高难度完全原创以杜绝数据污染仅需最终答案支持自动评测。对 26 款大模型的评测显示最强模型准确率仅 52.4%多数不足 40%。尽管增加「测试时计算」展现出良好的扩展潜力大模型推理能力仍有巨大提升空间。04 The Evolution of Thought: Tracking LLM Overthinking via Reasoning Dynamics Analysis思维的进化通过推理动态分析追踪大语言模型的过度思考论文下载PDF论文简介论文研究大语言模型长链推理中的过度思考现象分析模型在答案已经形成后为何仍继续生成冗余 thinking。论文从两类 reasoning dynamics 入手一是 thinking 长度与 content 长度之间的补偿关系二是语义表示从探索到收敛的轨迹变化。基于这些现象论文提出实例级 Reasoning Completion PointRCP用于区分答案形成前的有效探索和答案稳定后的冗余延伸并进一步设计 RCP 检测器在 AIME、GPQA 等任务上减少生成 token同时基本保持模型准确率。05 MASPO: Unifying Gradient Utilization, Probability Mass, and Signal Reliability for Robust and Sample-Efficient LLM ReasoningMASPO统一梯度利用、概率质量和信号可靠性以实现鲁棒且样本高效的大语言模型推理论文下载PDF论文简介MASPO 提出了一种面向大模型推理后训练的强化学习优化方案。它在 RLVR可验证奖励的强化学习场景下旨在解决现有 GRPO 等方法在训练稳定性和样本效率上的不足。现有方法依赖固定、对称的硬截断信任域与 token 长尾分布、稀疏奖励及正负样本可靠性差异不匹配。为此MASPO 提出三大创新Soft Gaussian Gating替代硬裁剪保留有效梯度Mass-Adaptive Limiter根据 token 概率动态调整约束提升长尾探索Asymmetric Risk Controller区分正负样本可靠性谨慎处理噪声负样本。实验证明MASPO 在多个数学推理基准和不同模型规模上相比基线取得了更优的 Avg32 与 Pass32 表现展现出更好的鲁棒性和可扩展性。06 Factorized Latent Reasoning for LLM-based Recommendation基于分解式隐式推理的生成式推荐论文下载PDF论文简介在生成式推荐任务中现有的隐式推理方法通常采用单一隐向量来表征用户意图这难以捕捉用户偏好中固有的多维性。本文提出 FLR将隐式推理分解为多个语义解耦的偏好因子并引入轻量级多因子注意力模块在隐式思维空间中进行多维推理。进一步提出 FLR-GRPO利用噪声注入与无噪声组内对比实现稳定对齐。在 Amazon 数据集上FLR 相比最强基线 LatentR3 平均提升 3.2%其中 Games 子集提升达 10.26%实现了隐式推理的语义透明化与性能提升。| 本文系美团技术团队出品著作权归属美团。欢迎出于分享和交流等非商业目的转载或使用本文内容敬请注明“内容转载自美团技术团队”。本文未经许可不得进行商业性转载或者使用。任何商用行为请发送邮件至 techmeituan.com 申请授权。