12300华夏之光永存:黄大年茶思屋难题揭榜第123期(人工智能领域第四期)完整题目整理 难题揭榜第123期人工智能领域第四期完整题目整理基础信息发布日期2025-06-09浏览量731次出题组织诺亚方舟实验室接口联系人郝建业haojianyehuawei.com最后更新2026-05-26 11:38难题1自适应稀疏激活的高效架构设计一、技术背景MoE结构相比传统的dense结构大幅降低了训练和推理成本。但是其每个token仍然需要激活大量的参数进行训练和推理在很多任务场景下仍然存在成本过高的问题。如何根据任务难度动态选择最优的激活参数量智能分配计算资源从而在保证性能的同时最大限度地优化训练与推理的效率是当前业界探索的下一步发展方向。二、任务定义自适应稀疏激活当模型在进行next token prediction时针对每个token如何自适应的选择最少的激活参数同时保证效果跟全参数激活达到相当的效果。深度自适应稀疏激活深度上可以将层或组件如attention或FFN视为独立的激活单元。不同的token可以动态激活不同数量的模块从而实现对计算资源的高效分配。目前已有一些方法可以实现这种特性例如 Mixture of DepthsMoD和Early Exit它们能够根据token的需求动态调整激活的层数或模块数量。层内自适应稀疏激活宽度上可以把MoE中的一个FFN专家或者稀疏attention中的一个KV block作为最小激活粒度即让传统的Top-k激活中的k根据token或者query进行自适应调整当前已经有诸如ReMoE、MoE、Top-P路由等研究可以实现一定程度的自适应激活但还不成熟未被广泛采用。三、技术挑战及当前结果深度稀疏激活优化深度上由于层级信息的存在稀疏激活优化面临较大挑战。例如虽然MoD尝试通过稀疏激活不同层来提升效率但在下游测试中效果和基线基本相当。这表明针对深度的稀疏激活优化仍具有较高的难度和挑战性需要进一步研究和改进。参数和结构联合优化稀疏激活问题的难点在于需要联合优化模型参数和模型动态结构选择每个token需要的最少模块比如Expert choice并无对token choice的明显优势而且模型架构选择涉及离散操作梯度估计比较困难。实验结果Pangu的MoD实验在大部分指标上没有显著优势。MoE训练中Expert choice对比token choice未体现出优势。四、技术诉求提出一套有效的自适应稀疏激活的方法基于2B总参数专家数≥16、稀疏比总参数/激活参数≥6的MoE200B tokens文本预训练数据从宽/深单点或者协同实现在保持开源评测MMLU、GSM-8K、HumanEval平均精度每项不少于基准1个百分点的情况下计算量减少30%。参考文献[1] AdaMoE: Token-Adaptive Routing with Null Experts for Mixture-of-Experts Language Models[2] MoE: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts[3] Mixture-of-Depths: Dynamically allocating compute in transformer-based language models[4] Measuring Multitask Language Understanding[5] Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them[6] Training Verifiers to Solve Math Word Problems[7] Evaluating Large Language Models Trained on Code难题2面向大语言模型慢思考能力的强化学习训练方法一、技术背景通过强化学习对基座模型进行微调以对齐人类偏好并提升模型推理精度已成为大模型后训练的核心范式。现有算法体系呈现双轨发展在线学习如GRPO、PPO等依赖实时策略迭代离线学习如DPO等侧重静态策略优化。然而在工程实践中这些方法面临三重困境训练效率瓶颈如何实现数据复用和稳定训练当前算法中每个prompt生成的推理回复仅被用来单步梯度更新更新后即被丢弃不能支持已生成数据的重复利用导致训练效率低下现有Replay Buffer技术在大规模参数场景下异步训练会造成强化学习的分布漂移进而造成了模型优化的不稳定甚至发散超参数耦合如何选择合理超参数基座模型性能能量在相同模型参数量下经历不同SFT阶段的基座模型性能差别较大包括模型精度与回复多样性等如何设计性能能量以平衡精度与多样性是强化学习基座选择的一大难点训练超参数选择后训练过程中模型精度与温度系数τ、KL散度惩罚系数β和期望熵ε存在非线性约束关系以及学习率η与批次大小B的动态耦合导致异步优化震荡训练精度跷跷板如何设计混合数据训练策略大语言模型通常需要兼顾数学、代码、通用推理、创意生成等多方面能力然而现有的混合数据训练策略通常为多阶段接续训练或直接混合数据训练训练精度容易出现“跷跷板”的问题难以保证多能力项均匀提升。二、技术挑战如何复用历史推理数据来提升模型训练效率设计大规模异步高效强化学习算法实现高效训练如何设计基座模型性能的多维度量辅助基座模型选择并进行相关超参数的关联分析如何协同数学、代码和通用能力的精度提升设计混合数据训练策略并应用于大规模后训练强化学习实战。三、当前结果异步强化学习Mila在ICLR2025的论文工作中分离了推理生成和模型训练的流程并探究了推理数据异步程度的影响。在精度不变的情况下使用LLaMA 3.1 8B模型实现了15%的训练效率提升超参数的关联分析针对不同sft起点的基座模型进行了后训练但模型性能与相关参数设置耦合性较强阶跃星辰的实验报告分析了部分训练参数的耦合性为超参数选择提供了见解混合数据训练策略采用多阶段接续训练但出现一定的跷跷板现象DeepSeek-R1的报告中设计了数学、代码和通用能力数据混合训练方式能够均匀提升所有能力项表现但具体训练策略并未披露。四、技术诉求三选一即可大规模异步高效强化学习设计适合于大语言模型的异步高效强化学习方法与PPO、GRPO等算法相比使用AIME2024和LiveCodeBench(2024.10~2025.05)作为测试集并使用Qwen 7B Base作为基座模型上进行后训练达到与DeepSeek-R1-Distill-Qwen-7B匹配的训练精度时训练步数减少30%超参数分析基于Qwen 7B模型提出至少3个维度模型度量例如精度、输出多样性等分析训练精度与温度系数τ、KL散度惩罚系数β期望熵ε学习率η与批次大小B等影响给出一套基座模型选取和训练超参选取策略并在AIME2024和LiveCodeBench(2024.10~2025.05)等测试集上SOTA精度提升10%混合数据训练策略给出一套推荐的混合数据训练策略基于Qwen 7B作为基座模型上进行多能力项后训练在AIME2024、LiveCodeBench(2024.10~2025.05)和Arena Hard的数学、代码和通用等测试集上保持AIME和LCB测试精度为SOTA的情况下 Arena Hard测试精度不低于于SOTA精度的95%。参考文献[1] Noukhovitch M, et al. “Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models.”[2] Li H, et al. “Predictable Scale: Part I–Optimal Hyperparameter Scaling in Large Language Model Pretraining.”[3] Guo D, et al. “DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning.”[4] MAA. American invitational mathematics examination - AIME. In American Invitational Mathematics Examination-AIME 2025.[5] N. Jain, et al. ‘Livecodebench: Holistic and contamination free evaluation of large language models for code.’[6] T. Li, et al. ‘From crowdsourced data to high-quality benchmarks: Arena-hard and benchbuilder pipeline.’难题3Reasoning模型慢思考的Test Time Scaling已揭榜一、技术背景面对具有挑战性的输入查询我们能否让语言模型在测试阶段有效利用额外的计算从而提高其响应的准确性自从OpenAI O1和DeepSeek R1模型以来越来越多的实践表明通过在测试阶段应用额外的计算LLM应该能够超越其训练时的表现。然而对于推理部署而言test time scale极大的增加了成本和效率的挑战。由于LLM在decoding阶段的token by token prediction更长的decoding会极大的增加KV Cache的计算和占用而当前流行的搜索框架例如BoN 即使N8在完成相同推理任务时成本也会增加3倍以上。其次当前推理部署的常用压缩手段包括比特量化、稀疏化、剪枝等都会不同程度的降低模型精度这使得搜索框架的效果进一步不稳定的同时搜索框架占用的时间开销也会导致原本的加速手段没有带来端到端的性能提升。因此对于reasoning模型而言是否可以高效部署在真实的数据集上提升端到端推理性能是实际大模型使用中的重要问题。二、技术挑战Reasoning模型的长输出增加了推理成本但是长序列的大部分算法已经失效实际reasoning模型往往prefill很短但decoding很长但原有LLM更多的技术积累是在长prefill阶段这使得对长decoding的模型而言加速效果不明显。基座模型的推理加速手段往往带来模型精度损失现有主流的模型部署加速策略包括bit量化、稀疏化、MHA2MLA等在不同的测评集上会有精度不稳定的额现象。尤其配合搜索框架后框架的能力往往对基座模型高度依赖因此会增加框架的搜索时间从而导致模型实际部署中经常出现加速手段失效或者加速导致精度损失。三、当前结果Reasoning模型的推理加速除了量化、稀疏化外当前针对长输出的优化主要利用model average降低输出长度在MATH500上可以降低输出长度10%或者利用一个小模型实现早停判断在AIME24上可以平均降低12%以上的冗余输出从而实现等效端到端推理加速。引入轻量级搜索框架提升模型准确率通过构建BONN8搜索框架QwQ-32b可以在AIME24上提升6%MATH500上提升2.1%。但是端到端推理效率降低3倍。更严重的是对原模型进行量化后原本可以提升推理效率20%的8bit量化配合同样的搜索框架后推理效率劣化增加至3.7倍以上。四、技术诉求满足以下一项即可提升长输出场景的推理性能补充当前长输出场景下推理加速手段的不足实现包括但不限于投机推理、动态压缩等方式的推理加速考虑到model average对模型的依赖这里不考虑model average在QwQ-32b上针对MATH500或者AIME24完成验证降低无效输出20%。构建高效搜索框架提升模型精度利用轻量级的搜索框架例如BON中N≤5也可以采用其他搜索框架。在QwQ-32b上针对MATH500或者AIME24完成验证配合业内通用量化方案在提升推理精度2%的同时推理效率提升10%。参考文献[1] Wu, Han, et al. Unlocking efficient long-to-short LLM reasoning with model merging. arXiv preprint arXiv:2503.20641, 2025.[2] SUI, Yang, et al. Stop overthinking: A survey on efficient reasoning for large language models. arXiv preprint arXiv:2503.16419, 2025.[3] Hunter Lightman, Vineet Kosaraju, et al. Let’s verify step by step. In International Conference on Learning Representations (ICLR), 2024[4] AMC. American invitational mathematics examination. https://artofproblemsolving.com/wiki/index.php/American_Invitational_Mathematics_Examination, 2025.[5] Li, J., Cao, P., Chen, Y., Xu, J., Li, H., Jiang, X., … Zhao, J. (2025). Rewarding curse: Analyze and mitigate reward modeling issues for LLM reasoning. arXiv preprint arXiv:2503.05188.难题4大语言模型快慢思考模式混合训练已揭榜一、技术背景近期以OpenAI O1/O3 DeepSeek R1为代表的工作提出了test-time scaling慢思考的新后训练范式。这些模型通过生成复杂详尽的思维链可大幅度提升大语言模型在复杂数学、代码、自然语言推理等任务的性能。然而这种范式也会导致模型“过度思考”。由于慢思考大模型输出长度远远长于先前快思考模型这也给推理效率、吞吐量带来了巨大的压力严重阻碍其在大流量toB toC场景上线。因此我们希望能一定程度上降低模型推理输出的token数扩展大语言模型在端侧、大流量场景上应用。目前学界在此方向有少量的探索工作主要是如何减少模型输出的token数例如基于文本内容token pruning基于self-training获得简洁推理过程等。这些工作一般聚焦于减少推理类任务的输出token量并不涉及通用任务快思考训练数据的融合无法同时完成我们上述两个目标。二、技术挑战过度思考如何高效减少数学、代码以及泛推理类任务所需推理token数量在不削弱推理能力的前提下减少过度思考现象达成全局通用能力最优。快慢思考适用性如何大规模系统化识别快思考、慢思考所适用的任务范围并进行合理的快慢思考数据配比进行训练确保用恰当的思维模式解决合适的任务。三、当前结果通过计算CoT token重要性训练模型在不同CoT压缩比的情况下生成长度不一的压缩CoT进而实现针对慢思考思维链压缩。在GSM8K以及MATH500上压缩30%左右的token会有2个点左右的性能下降。通过self-training将模型自身产生的简洁CoT再训入模型中调整自身成长长度。在GSM8K以及MATH500上能够实现减少30%CoT tokens同时保持整体性能下降1.8个点。当前已进行慢思考推理长度优化先导实验。目前基于prompt引导改写方案实现整体思维链长度下降20%但高阶推理能力不劣化的效果。性能指标需要进一步提升。四、技术诉求减少输出Token长度准确率保持针对推理类任务参照的测评体系基于推理榜评测数据集(AIME, MATH-500, GPQA)和华为in-house榜单评测。在DeepSeek-R1-Distill-Qwen-7B基线模型上实验快慢思考融合大语言模型准确率下降1个点以内Token长度压缩30%以上。参考文献[1] Chen, X., Xu, J., Liang, T., He, Z., Pang, J., Yu, D., … Yu, D. (2024). Do not think that much for 2 3? On the overthinking of o1-like LLMs. arXiv preprint arXiv:2412.21187.[2] Xia, H., Li, Y., Leong, C. T., Wang, W., Li, W. (2025). Tokenskip: Controllable chain-of-thought compression in llms. arXiv preprint arXiv:2502.12067.[3] Munkhbatt, T., Ho, N., Kim, S., Yang, Y., Kim, Y., Yun, Y. (2025). Self-Training Elicits Concise Reasoning in Large Language Models. arXiv preprint arXiv:2502.20122.难题5面向无限长序列的高效记忆架构一、技术背景Transformer模型是目前的大语言模型的主流架构。随着模型能力的增强大语言模型开始被用于多种多样的任务其中包括序列长度很长的输入和输出。然而Transformer中的注意力机制导致模型的计算复杂度随序列长度呈平方增长KV cache随序列长度呈线性增长给长序列场景的训练和推理带来很高的成本也带来难以突破的序列长度上限。由于序列长度方面的困难主要是由注意力机制造成的业界从多种角度提出了许多改进包括系统层面的优化如Flash Attention、基于注意力机制的优化如GQA、改进注意力机制的变种如线性序列模型。其中前面两类由于不改变注意力本身的机理一般只能带来常数倍的优化而不能从根本上解决无限长序列的问题。另一方面从记忆的角度看注意力机制可以视为一种工作记忆但只具有基本的存储与读取功能表现为将数据表示直接保存为KV cache供注意力机制取用。更高级的记忆能力如压缩、更新、遗忘有望改进注意力机制的低效记忆。本课题的难点在于精度与效率的平衡。二、技术挑战模型精度如果要求工作记忆大小随序列长度呈亚线性增长必然要求模型在序列维度做淘汰或压缩。是否存在淘汰或压缩机制保证强召回等任务劣化是有限的高效实现非线性序列模型可能带来更强的模型能力与记忆机制但给高效实现带来挑战进而导致规模化困难。三、当前结果业界进展前面提到的三类注意力机制的改进中线性序列模型在效率上能够处理无限长序列。从记忆角度看它们在推理时维护一个常数大小的工作记忆较新的模型设计了记忆的更新与遗忘机制。这些模型在短序列的语言理解类任务上得到较多验证效果不差于Transformer。但是在长序列任务上受限于记忆大小这些模型往往在强召回的任务上表现不佳。沿着线性序列模型发展的脉络最近的模型考虑了非线性如Titans、MoM、增大记忆容量如MoMba等思路。内部实验验证了线性序列模型的表现亦实验了混合模型发现混合模型可以在效果上匹配Transformer但效率提升有限只要混入full attention层空间复杂度就不能降到线性以下。四、技术诉求通过改进工作记忆机制实现原生支持无限长序列的模型不采用与full attention混合的架构。效果指标基于1B参数、200B tokens文本预训练数据、2M序列长度进行实验在大海捞针评测集上精度相对GQA Transformer劣化1%的情况下显存占用减少90%。理论保证训练效率不低于Transformer推理时工作记忆大小随序列长度呈亚线性增长。参考文献[1] Thus Spake Long-Context Large Language Model[2] Titans: Learning to Memorize at Test Time[3] MoM: Linear Sequence Modeling with Mixture-of-Memories[4] An Empirical Study of Mamba-based Language Models[5] Needle in A Haystack - Pressure Testing LLMs