1B参数小模型HRM-Text低预算挑战大模型性能,开启计算结构新增长轴? HRM-Text1B参数小模型低预算挑战大模型性能开启计算结构新增长轴2026年5月18日Sapient Intelligence发布了HRM-Text这是一个约1B参数的模型。它在MATH上拿到56.2在GSM8K上拿到84.5在ARC-Challenge上拿到81.9训练成本约1500美元16块H100跑了不到两天。团队同步开放了论文、模型权重和预训练代码。只看这些数字人们可能会怀疑这是某种微调的结果。但HRM-Text是从零开始预训练的它只使用了约40B unique tokens考虑重复采样后实验表中的总训练量记为约60B tokens大约是Llama 3.2 3B9T tokens训练量的1/225Qwen3.5 2B36T tokens的1/900。01 打破默认增长逻辑过去几年大模型行业形成了一套近乎默认的增长逻辑模型更大、数据更多、算力更强智能能力就会继续提升。这条路线已经被充分证明有效GPT、Claude、DeepSeek、Qwen等模型的持续演进都离不开参数规模、数据规模和训练算力的扩张。但基础模型训练也越来越像一项重工业有着更长的训练周期、更昂贵的GPU集群、更复杂的数据工程以及越来越高的入场门槛。HRM-Text想尝试另一种思路在有限数据和有限算力下能否通过架构与训练目标的共同设计提高每一次计算的产出论文标题“HRM-Text: Efficient Pretraining Beyond Scaling”直接给出了它试图挑战的方向。简单来说HRM-Text同时调整了模型「怎么算」和「学什么」。一方面让有限参数在输出前进行多轮内部计算提高有效计算深度另一方面只对回答部分计算损失把训练信号更集中地用于任务理解和答案生成。需要注意的是HRM-Text并不是一个已经完成post-training或强化学习优化的成熟聊天模型。团队将当前版本定义为一个Proof of Concept它的价值不在于找到语言模型的最终形态而是提供一个可以被检验的案例说明基础模型预训练的效率仍然存在很大的架构创新空间。02 重新组织计算过程HRM-Text的第一项变化是重新组织模型内部的计算过程。标准Transformer通常由一系列参数彼此独立的网络层构成输入沿着模型深度向前传播经过第一层再进入第二层依次向下最终得到输出。增加模型能力的一种直接办法就是堆叠更多层、增加隐藏维度或者训练更多参数。HRM-Text没有简单沿用这条路线它引入了两个以不同时间尺度运行的模块高层模块H和低层模块L。如果用一个更直观的类比标准Transformer更像是把一份材料依次交给多位不同的编辑每个人修改一次后继续向下传递HRM-Text则更像是让两组编辑反复修改同一份内部草稿。模型不是单纯增加更多参数而是让有限参数参与更深的有效计算。根据团队采访解释这种设计也不同于行业内常见的「大小脑」协同方案。后者通常分别训练两个不同规模的模型再让大模型负责复杂规划、小模型负责快速执行模型之间主要依靠文本接口交换信息。HRM的H和L则属于同一个网络它们不是两个独立模型也不是通过文本空间交接任务而是在同一个潜空间中反复迭代同一份内部状态。模块间传递什么信息、如何分工由统一的优化过程共同决定。更准确地说HRM不是在模型外部拼接一个规划器和一个执行器而是将分层计算内建进单个模型。低层模块更新得更快承担局部计算和迭代修正高层模块更新得更慢维持更稳定的语义上下文并为低层计算提供更长期的约束。按照论文中的设定每次前向传播会执行两个高层周期。每个周期先完成三次L模块更新再完成一次H模块更新。也就是说在预测一个token之前模型会完成8次递归更新6次低层更新和2次高层更新。这里需要强调的是「多轮内部计算」并不意味着模型已经能够根据题目难度动态调整思考时间。当前版本采用固定递归日程无论任务简单还是复杂模型都会按照预设次数执行内部更新。自适应计算时间会是后续探索方向。这也意味着1B参数并不等于它的推理成本与普通1B dense Transformer完全相同。递归调用提高了参数利用率但也增加了每个token输出前的串行计算量。因此参数规模、训练成本和实际推理效率仍需分别讨论。这条路线并非没有代价。内部循环越深模型越有机会持续修正自己的表征但同一组模块被反复调用后激活值方差可能不断累积梯度也更容易消失或爆炸。递归架构并不是新概念真正困难的是如何让深层递归在开放域语言任务中稳定训练。HRM-Text为此引入了两项设计MagicNorm和warmup deep credit assignment。MagicNorm的目标是同时兼顾前向传播和反向传播的稳定性。模块内部仍然保留有利于梯度流动的PreNorm结构但在每轮递归模块退出时再额外加入一次归一化。这样既能限制激活值在反复循环中的方差增长也尽量保留顺畅的梯度路径。warmup deep credit assignment则控制梯度需要向前追溯多远。训练刚开始时模型只对最后两个递归步骤进行梯度回传随着训练逐渐稳定回传范围再线性增加到最后五个步骤。可以把它理解为一种循序渐进的「追责机制」训练早期先让模型为距离输出最近的几步内部计算负责稳定之后再逐步让更早的计算过程承担责任。这样既能够利用更深的递归计算也可以避免模型从一开始就暴露在过长的梯度路径中。论文还从有效深度的角度分析了这套结构。在标准Transformer或部分looped Transformer中随着层数增加后续层对隐藏状态的改变可能逐渐减弱模型很早就趋向一个相对稳定的输出分布。HRM-Text的分析则显示其深层计算仍然保持较明显的表征变化。这意味着递归步骤并不只是重复运行还在持续修改内部状态较深的计算步骤依然能够带来增量信息。03 调整预训练目标架构变化之外HRM-Text的第二项改动发生在预训练目标上。大多数语言模型采用自回归的「下一个token预测」给定一段文本预测下一个token。无论输入是网页、书籍、论坛回复还是代码模型都要学习接续序列中的每一个位置。这套目标足够通用但也意味着大量训练信号会被用于预测和任务完成关系不大的文本。HRM-Text选择了一条更有针对性的路线它省略了大规模原始文本预训练阶段直接使用「指令——回答」数据对从零开始训练。给定一条指令和对应回答模型只对回答部分计算token级损失。这并不意味着指令部分完全不参与学习。回答损失依然会沿着注意力路径影响模型如何理解和使用指令。但模型不再承担「预测问题本身」的任务而是将更新信号更集中地用于生成合适的答案。如果用一个更直观的类比老师批改试卷时不再给「抄题」打分只评价答题部分。与「仅回答目标」配套的是PrefixLM mask。在标准causal mask中每个token只能看到自己之前的内容。这种设计适合从左到右生成但对于已经完整给出的指令而言限制并非必要。HRM-Text允许指令部分的token彼此双向可见进入回答部分后再恢复标准的因果生成方式。于是模型可以先把整段指令作为完整上下文进行整合再逐步生成答案。在仅解码器的实现中它获得了一种近似编码器——解码器的分工指令侧更像编码回答侧更像解码。论文的注意力分析显示相较于纯causal maskPrefixLM带来了更高的注意力熵注意力模式也更加全局和多样。它并不只是改变了一张mask而是在提升模型利用指令信息的方式。这几项设计的效果可以从消融实验中看得比较清楚。在相同训练FLOPs条件下研究团队依次加入「仅预测回答」、PrefixLM和HRM架构并观察模型表现如何变化。以ARC-Challenge为例1B Transformer使用全序列预测和causal mask时得分为51.91改成仅预测回答后提高到62.88加入PrefixLM后进一步提高到74.32最后换成HRM架构后达到81.91。在MATH上成绩则从35.44依次提高到47.04、48.36和56.16。GSM8K也从48.37依次提高到69.75、75.06和84.53。这组结果说明HRM-Text的效率并非来自某一个单独改动而是三个方向共同作用的结果分层递归架构提高有效计算深度任务完成目标将训练信号集中在任务完成上PrefixLM改善模型整合指令上下文的方式。为确保结果可信Sapient Intelligence对数据污染问题进行了系统验证。HRM-Text仅使用公开且可追溯来源的数据进行训练并针对评测集进行了严格的数据污染分析。在最严格的Clean Split条件下模型依然取得了与主实验一致的优势结果说明性能提升并非来自测试集泄漏而是源于模型架构本身带来的能力提升。详细分析见论文。04 特点与后续方向将HRM-Text放进更广泛的小模型对比中也能看到它的特点。它在MATH、GSM8K、DROP和ARC-Challenge等偏任务执行与推理的benchmark上表现突出在MMLU这类更依赖广泛知识覆盖的基准测试上则处于有竞争力但并不领先的位置。例如论文列出的Qwen3.5 2B在MMLU上达到64.5高于HRM-Text的60.7OLMo3 7B则达到65.8。但在MATH上HRM-Text的56.2高于表格中的Qwen3.5 2B、Llama 3.2 3B、Gemma3 4B和OLMo3 7B。这种差异并不难理解。如果训练数据和参数规模有限模型很难同时覆盖足够宽广的事实知识。HRM-Text更适合被理解为一个偏重任务执行与推理能力的紧凑模型而不是一个已经覆盖广泛知识、完成对话对齐和工程优化的通用型产品模型。团队在采访中也给出了更具体的解释训练数据较少意味着模型没有充分覆盖数据长尾参数规模较小则意味着即使模型见过部分低频信息也更难将其稳定保留在参数中。论文据此提出了一个后续方向将推理核心和知识存储部分解耦。未来类似HRM-Text的紧凑递归模型可以专注于计算、规划和任务执行而事实覆盖则交给检索系统、外部知识库或可学习的记忆模块。团队在采访中表示近期已经在「推理——知识解耦」方向上获得了一些早期结果但尚未披露具体实验。这并不意味着知识可以被简单地从模型中剥离。外部知识如何进入多轮内部计算、检索结果如何与潜空间状态交互、记忆模块如何训练仍然需要系统实验。另一方面它也不是第一个探索递归计算、潜空间推理或PrefixLM的模型。Looped Transformer、RINS、Huginn、Ouro等工作都在不同程度上探索过参数复用、内部循环或潜空间计算。条件生成和PrefixLM也已有较长研究历史。HRM-Text更合适的定位是它将分层双时间尺度递归、递归稳定训练方法、「仅回答目标」和PrefixLM组合进一个低预算从零预训练框架中并在1B规模上给出了可复现的结果。05 探索开放语言环境HRM-Text并不是Sapient第一次探索分层递归计算。2025年6月团队提出了HRMHierarchical Reasoning Model架构正是前文提到的高层模块、低层模块、双时间尺度计算和潜空间迭代。团队随后于2025年7月全面开源第一代模型HRM-Symbolic主要面向具有明确边界的符号推理任务。通过分层模块、双时间尺度计算和潜空间推理它在复杂数独、迷宫寻路和ARC-AGI等任务中验证了HRM架构处理组合搜索问题的潜力。但这还只是第一步。无论是数独还是迷宫寻路这类任务都具有相对清晰的规则、状态空间和可验证答案。语言模型面对的环境则更加开放自然语言存在歧义知识覆盖范围更广输出形式也更加多样。模型不仅需要完成推理还需要理解上下文、组织语言并在开放场景中生成合适的答案。更重要的是符号任务中可行的递归架构并不一定能够直接迁移到语言建模。随着递归深度增加激活值和梯度更容易失控。HRM-Text引入MagicNorm和渐进式深层信用分配正是为了让深层递归能够稳定扩展到语言模型。如果说HRM-Symbolic回答的是「这条架构路线是否可行」那么HRM-Text开始回答的是另一个更关键的问题当任务进入开放域语言环境时这套架构是否仍然有效从目前的结果来看答案至少值得继续探索。值得注意的是递归潜空间推理也正在获得其他研究团队的关注。2026年5月19日图灵奖得主Yoshua Bengio作为共同作者参与发布了《Generative Recursive Reasoning》。论文提出的GRAMGenerative Recursive Reasoning Models直接沿着HRM所开创的分层递归推理路线展开研究在HRM架构基础上进一步引入概率化多轨迹推理机制。该工作表明HRM已不仅仅是一项单独的模型创新而正在成为下一代推理型人工智能的重要研究基础并持续吸引全球顶尖学者沿这一方向深入探索。06 重新选择架构的原因Sapient Intelligence对HRM的探索与两位创始人此前的技术路径有关。Sapient创始人王冠长期关注强化学习曾在清华大学脑与智能实验室、上海人工智能实验室和小马智行从事相关研究与工程工作也是OpenOrca的核心开发者和OpenChat作者。联合创始人陈威廉则有大疆创新、禾赛科技等公司的研发经历并曾负责清华大学科创中心的成果转化工作。两人的AGI探索始于2020年。当时大语言模型尚未展现出今天的影响力。相比单纯依赖规模扩张他们更关注另一类问题智能系统能否像人一样通过与环境交互不断积累经验并在有限资源下持续学习因此团队最初从强化学习切入将主要精力投入自动驾驶和机器人等场景。随着GPT-3和ChatGPT相继出现他们开始调整方向探索强化学习与大语言模型结合的可能性。这项探索后来形成了OpenChat。OpenChat的成功验证了围绕后训练数据质量和训练目标进行优化的价值但也让团队开始思考一个更底层的问题如果模型的基础架构仍然是Transformer那么无论后训练方法如何改进能力增长是否仍会越来越依赖更多参数、更多数据和更大规模的算力集群对于一家创业公司而言这不只是一个理论问题。沿着主流路线继续前进意味着进入一场由资本和算力主导的竞赛。Sapient最终选择将注意力转向底层架构不再只优化现有模型的训练方式而是重新思考智能系统应该如何组织计算。HRM由此成为团队的核心技术路线。Sapient将自己的长期方向概括为Lean General Intelligence不是单纯追逐更大的模型而是寻找更高效、更可及、更具泛化能力的智能系统。HRM-Symbolic和HRM-Text正是这条路线上的两个阶段性结果。HRM-Text提供了一个有数据支撑、也可以被复现和继续检验的案例在一个通常需要海量tokens和庞大集群的领域通过改变计算结构与训练目标一个1B参数模型仍然能够以较低预算进入部分2B至7B开源模型的性能区间。真正困难的问题可能还在后面。团队在采访中提到如果未来将HRM扩展到更大规模或者与MoE、检索系统和可学习记忆结合递归架构本身的稳定性问题可能与新模块的训练难题进一步叠加。专家模块应该放在网络的什么位置、如何优化外部知识如何进入多轮内部计算都仍然需要系统实验。07 Scaling之外的新可能不可否认HRM-Text尚未成为一条能够全面取代Scaling Law的成熟路线。它的底层数据配比、真实的推理成本、向更大参数规模扩展的潜力乃至在极其复杂的开放任务中的表现都仍需时间的检验与开源社区的独立复现。它也不是对Scaling的否定。过去几年扩大参数、数据和算力规模已经反复证明了自己的有效性。未来的模型进步大概率仍然需要更高质量的数据、更充足的算力和更系统的工程投入。但HRM-Text所展示的可能不仅仅是一个新的模型架构。如果说过去十年AI的主要增长轴是参数规模、数据规模和训练算力的持续扩张那么HRM所探索的是另一个更底层的问题计算过程本身能否成为新的增长轴标准Transformer的基本思路是通过堆叠更多参数让模型拥有更强的表征能力。HRM则尝试让有限参数在潜空间中参与多轮分层递归计算使模型在输出之前完成更深的内部状态更新。GRAM等后续研究进一步表明这条路线还可以继续向概率化、多轨迹和推理时宽度扩展。从这个角度看HRM-Text的价值不只是一个约1B参数的模型取得了怎样的benchmark成绩也不只是一次低成本预训练实验节省了多少GPU时间。更重要的是它提供了一个可以复现、可以比较、也可以继续被证伪或改进的案例除了扩大模型规模之外重新设计计算结构同样可能改变性能、成本与能力之间的关系。在一个已经被Scaling深刻塑造的行业中这种可能性本身就足够重要。因为下一代智能系统的增长或许不仅来自更多参数、更多数据和更多算力也来自一个更基础的问题模型究竟应该如何思考。