报名｜ACL‘26 美团中稿精选：从能力评测到推理优化，构建生成新范式

发布时间：2026/6/6 20:30:38

ACLAnnual Meeting of the Association for Computational Linguistics是计算语言学和自然语言处理NLP领域的国际顶级学术会议。自 1962 年创办以来ACL 已成为 NLP 领域规模最大、影响力最高的学术盛会汇聚了来自全球学术界和工业界的顶尖研究者。本文将分享美团技术团队被 ACL 顶会收录的其中 6 篇论文技术方向覆盖大模型评测、复杂流程推理、竞赛级数学思维优化、强化学习优化、生成式推荐等领域欢迎一起交流学习01 CoreCodeBench: Decoupling Code Intelligence via Fine-Grained Repository-Level TasksCoreCodeBench通过细粒度仓库级任务解耦代码智能论文下载PDF论文简介本论文提出了 CoreCodeBench一种面向大语言模型编程能力的细粒度评测基准。该基准利用 COREPIPE 框架从 12 个 Python 开源库自动生成 1,524 个结构化任务涵盖开发、修复、测试驱动开发等多种软件工程场景有效区分不同认知负载并动态调整任务复杂度。实验表明其有效性达 78.55%显著优于现有方法揭示了模型在不同任务类型上的能力错配现象。CoreCodeBench 还支持多任务组合评测模拟真实开发环境具备高自动化、强鲁棒性和可复现性为代码智能评测提供了更全面、精准的框架。02 SOP-Maze: Evaluating Large Language Models on Complicated Business Standard Operating ProceduresSOP-Maze评估大语言模型在复杂业务标准操作流程上的表现论文下载PDF论文简介随着大模型越来越多地被用作各领域的智能体现有的评测大多关注它们遵循指令、做决策的能力但真实业务场景往往涉及复杂的标准操作流程SOP而这方面的能力评估还没有被充分探索。为填补这一空白研究者基于真实业务数据构建了 SOP-Maze包含来自 23 个复杂 SOP 场景的 397 个实例和 3422 个子任务。论文把 SOP 任务分成两大类「侧根系统」LRS代表选项众多、需要精准选择的宽广型任务「主根系统」HRS则强调带有复杂分支的深度逻辑推理。实验结果显示几乎所有最先进的模型在 SOP-Maze 上都表现吃力。作者归纳出三类主要错误一是「路线盲区」难以遵循流程二是「对话脆弱性」无法处理真实对话中的细微之处三是「计算错误」在复杂语境下的时间或算术推理出错。简单来说这是一个聚焦「模型能不能真正照着复杂业务流程办事」的评测既考验广度也考验深度结果表明当前模型在这方面还有明显短板。03 AMO-Bench: Large Language Models Still Struggle in High School Math CompetitionsAMO-Bench大语言模型在高中数学竞赛中仍面临挑战论文下载PDF论文简介本文提出 AMO-Bench一个包含 50 道人工命题的极高难度数学推理基准。鉴于顶尖大模型在 AIME 等现有竞赛上性能趋于饱和本基准确保经专家验证达国际奥数IMO或更高难度完全原创以杜绝数据污染仅需最终答案支持自动评测。对 26 款大模型的评测显示最强模型准确率仅 52.4%多数不足 40%。尽管增加「测试时计算」展现出良好的扩展潜力大模型推理能力仍有巨大提升空间。04 The Evolution of Thought: Tracking LLM Overthinking via Reasoning Dynamics Analysis思维的进化通过推理动态分析追踪大语言模型的过度思考论文下载PDF论文简介论文研究大语言模型长链推理中的过度思考现象分析模型在答案已经形成后为何仍继续生成冗余 thinking。论文从两类 reasoning dynamics 入手一是 thinking 长度与 content 长度之间的补偿关系二是语义表示从探索到收敛的轨迹变化。基于这些现象论文提出实例级 Reasoning Completion PointRCP用于区分答案形成前的有效探索和答案稳定后的冗余延伸并进一步设计 RCP 检测器在 AIME、GPQA 等任务上减少生成 token同时基本保持模型准确率。05 MASPO: Unifying Gradient Utilization, Probability Mass, and Signal Reliability for Robust and Sample-Efficient LLM ReasoningMASPO统一梯度利用、概率质量和信号可靠性以实现鲁棒且样本高效的大语言模型推理论文下载PDF论文简介MASPO 提出了一种面向大模型推理后训练的强化学习优化方案。它在 RLVR可验证奖励的强化学习场景下旨在解决现有 GRPO 等方法在训练稳定性和样本效率上的不足。现有方法依赖固定、对称的硬截断信任域与 token 长尾分布、稀疏奖励及正负样本可靠性差异不匹配。为此MASPO 提出三大创新Soft Gaussian Gating替代硬裁剪保留有效梯度Mass-Adaptive Limiter根据 token 概率动态调整约束提升长尾探索Asymmetric Risk Controller区分正负样本可靠性谨慎处理噪声负样本。实验证明MASPO 在多个数学推理基准和不同模型规模上相比基线取得了更优的 Avg32 与 Pass32 表现展现出更好的鲁棒性和可扩展性。06 Factorized Latent Reasoning for LLM-based Recommendation基于分解式隐式推理的生成式推荐论文下载PDF论文简介在生成式推荐任务中现有的隐式推理方法通常采用单一隐向量来表征用户意图这难以捕捉用户偏好中固有的多维性。本文提出 FLR将隐式推理分解为多个语义解耦的偏好因子并引入轻量级多因子注意力模块在隐式思维空间中进行多维推理。进一步提出 FLR-GRPO利用噪声注入与无噪声组内对比实现稳定对齐。在 Amazon 数据集上FLR 相比最强基线 LatentR3 平均提升 3.2%其中 Games 子集提升达 10.26%实现了隐式推理的语义透明化与性能提升。| 本文系美团技术团队出品著作权归属美团。欢迎出于分享和交流等非商业目的转载或使用本文内容敬请注明“内容转载自美团技术团队”。本文未经许可不得进行商业性转载或者使用。任何商用行为请发送邮件至 techmeituan.com 申请授权。

新型消费积分商业模式拆解：盈利架构、衰减铸造模型与项目风控要点

东西买完很开心。几天后看账单，还是觉得——钱又没了。消费这件事，好像永远是单向的。但最近一两年，一种叫"绿色积分"的模式，正在悄悄改写这个逻辑。不讲政策原文。只说操盘手真正关心的三件事——参数怎么设、节奏怎么…

2026/6/6 20:29:16 阅读更多

AI赋能：利用快马多模型为wechatmsg消息处理注入智能灵魂

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 请生成一个集成AI能力的智能微信消息处理应用，要求：1、调用快马平台支持的AI模型（如DeepSeek），对收到的长文本消息或文章…

2026/6/6 20:29:15 阅读更多

别只看天梯图了！用这套‘需求-预算’匹配法，5分钟搞定你的专属电脑配置单

别只看天梯图了！用这套‘需求-预算’匹配法，5分钟搞定你的专属电脑配置单每次打开电脑配置论坛，总能看到这样的场景：新手发帖问"5000元预算怎么配电脑"，下面立刻出现十几条互相矛盾的回复——有人坚持"…

2026/6/6 20:25:53 阅读更多

3PEAK思瑞浦 TP2411-TR SOT23-5 运算放大器

特性增益带宽积：10 MHz低噪声：8.2 nV/√Hz（f 1 kHz）压摆率：7 V/μs失调电压：1 mV（最大值）输入正端电磁干扰抑制比（EMIRR IN）：88 dB（2…

2026/6/6 21:40:02 阅读更多

STM32项目避坑：IWDG喂狗不当引发的“灵异”复位，你的HAL_IWDG_Refresh放对地方了吗？

STM32项目避坑：IWDG喂狗不当引发的“灵异”复位，你的HAL_IWDG_Refresh放对地方了吗？在嵌入式开发中，看门狗定时器（IWDG）是确保系统可靠性的重要机制。然而，许多开发者在使用STM32的HAL库时&…

2026/6/6 21:39:22 阅读更多

解决Minecraft启动器PCL窗口不显示问题：管理员权限的奥秘与实用技巧

解决Minecraft启动器PCL窗口不显示问题：管理员权限的奥秘与实用技巧【免费下载链接】PCL Minecraft 启动器 Plain Craft Launcher（PCL）。项目地址: https://gitcode.com/gh_mirrors/pc/PCL Plain Craft Launcher (PCL) 是一款广受欢…

2026/6/6 21:39:01 阅读更多

告别重复造轮子：用快马ai一键生成arm7常用外设驱动模块

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 我正在开发一个基于arm7的项目，需要快速集成几个常用外设驱动以提升效率。请生成一个集成了以下功能的arm7模块化代码：一、uart串口通信初始化函数及发送接…

2026/6/6 21:38:41 阅读更多

STM32驱动1602 LCD：从硬件连接到软件驱动的完整实战指南

1. 项目概述与1602 LCD基础认知在嵌入式开发中，尤其是基于STM32这类MCU的项目里，人机交互界面（HMI）是连接用户与设备的关键桥梁。对于需要显示简单文本、数字或状态信息的应用，1602字符型液晶显示器（LCD&am…

2026/6/6 21:38:20 阅读更多

CSDN AI营销卡片数量红线曝光：超过这个数，不仅不引流，还拉低推荐分！

更多请点击： https://intelliparadigm.com 第一章：CSDN AI营销卡片数量红线的官方定义与底层逻辑 CSDN 官方对 AI 营销卡片的数量红线作出明确界定：单篇技术文章中嵌入的 AI 营销卡片（含“AI 生成”“AI 辅助写作”“AI 检查建议…

2026/6/6 21:38:20 阅读更多

Windows下免安装凸轮轮廓生成工具：支持多种从动件与运动规律的本地化计算与DXF导出

本文还有配套的精品资源，点击获取简介：专为机械设计场景打造的便携式凸轮设计辅助工具，运行在Windows平台，无需安装、不写注册表、不联网，双击主程序即可启动。提供直动/摆动两类从动件类型（尖顶、滚子…

2026/6/6 0:00:44 阅读更多

DeepPCB数据集：3步构建高精度PCB缺陷检测AI系统

DeepPCB数据集：3步构建高精度PCB缺陷检测AI系统【免费下载链接】DeepPCB A PCB defect dataset. 项目地址: https://gitcode.com/gh_mirrors/de/DeepPCB 还在为PCB（印刷电路板）缺陷检测项目找不到高质量数据集而烦恼吗？面…

2026/6/6 0:01:04 阅读更多

Aimmy完全指南：5分钟掌握免费AI瞄准辅助工具，提升游戏操作体验

Aimmy完全指南：5分钟掌握免费AI瞄准辅助工具，提升游戏操作体验【免费下载链接】Aimmy Universal Second Eye for Gamers with Impairments (Universal AI Aim Aligner (AI Aimbot) - ONNX/YOLOv8 - C#) 项目地址: https://gitcode.com/gh_mirrors/ai/…

2026/6/6 0:04:06 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/6 9:33:43 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/6 8:10:10 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/6 9:33:50 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…