HRM-Text：1500美元训出的1B模型，凭什么火了？

发布时间：2026/6/14 21:40:21

目录前言一、HRM-Text是什么二、环境/前置准备三、实操步骤四、使用指南五、HRM架构的深层意义总结前言最近AI圈有个消息炸了——一个参数量仅1B的小模型训练成本只要1500美元却在多个推理benchmark上打出了一组让人难以置信的成绩Benchmark HRM-Text 对比模型MMLU 60.7% 2-7B模型水平ARC-Challenge 81.9% 超越多数3B模型GSM8K 84.5% 接近7B模型MATH 56.2% 推理模型第一梯队DROP 82.2% 优秀更离谱的是它只用了约40B unique tokens训练而Llama 3.2 3B用了约9T tokens225倍Qwen3 2B用了约36T tokens900倍。HuggingFace CEO Clem Delangue亲自转发推荐图灵奖得主Yoshua Bengio团队也发布了高度复用HRM架构的GRAM论文。今天我们就来深度拆解这个HRM-Text看看它到底做了什么以及我们如何上手使用。一、HRM-Text是什么HRM-Text是由Sapient Intelligence发布的一个基础语言模型全称是Hierarchical Recurrent Model for Text。它不是传统意义上的小模型逆袭故事而是一次推理模型架构的换脑实验——把模型从边说边想变成先想完再说。核心创新点1. 分层递归推理架构HRM标准Transformer像一条流水线输入进来一层一层往前走每一层处理一次最后输出。HRM的思路完全不同它在模型内部放了两个以不同节奏工作的模块• 高层模块H战略脑更新得慢负责把握整体方向、维持长期上下文、决定当前应该往哪里想• 低层模块L执行脑更新得快负责局部计算、细节修正、一步步把问题往前推关键在于H和L不是两个外部Agent也不是两个模型互相发消息。它们在同一个神经网络里在同一个潜空间中反复更新同一份内部状态。打个比方标准Transformer像一篇文章依次交给30个编辑每个人只改一次。HRM更像两组编辑反复打磨同一份稿子——一组快速改细节一组慢慢把握整体方向。最后输出之前模型已经在脑内完成了多轮修正。2. 潜空间推理Latent Reasoning现在的推理模型很多时候像是在边说边想。Chain-of-Thought把推理过程写成一串token让模型一步一步输出中间过程。这当然有用但问题也很明显• Token越来越长账单越来越高• 中间一步错了后面就可能一路错下去• 推理过程被绑定在语言表面模型很容易学到像推理的文本却不一定真的掌握了推理的结构HRM问的是一个更激进的问题推理为什么一定要写出来人类做很多题并不是把脑内每一步都说成一句话。我们会在脑子里反复尝试、修正、排除、回退最后才说出答案。HRM想做的正是这件事——把草稿纸从嘴上拿下来放回模型的脑子里。3. 任务完成导向的训练目标大多数语言模型训练时会预测整个文本序列里的每一个token——问题、提示、上下文、答案统统要预测。HRM-Text更直接它用instruction-response数据从零训练但只对回答部分计算损失。直观理解就是老师批卷子时不再给抄题打分只看你答得对不对。这样训练信号会更集中地落在任务完成上而不是平均分散在整段文本里。这部分的关键是PrefixLM attention mask指令部分可以充分整合上下文回答部分再按因果生成方式输出。结果就是在decoder-only的实现里做出了一种近似encoder-decoder的效果。4. MagicNorm Warmup Deep Credit Assignment递归训练的难点在于循环越深训练越容易不稳定。同一组模块被反复调用后激活值方差可能累积梯度也更容易消失或爆炸。HRM-Text引入• MagicNorm让模型在多轮递归中保持激活稳定• Warmup Deep Credit Assignment不是一上来就让模型为所有深层递归步骤负责而是先让它学会短路径上的内部计算再慢慢把责任扩展到更深的推理过程二、环境/前置准备官方资源资源链接GitHub https://github.com/sapientinc/HRM-TextHuggingFace模型 https://huggingface.co/sapientinc/HRM-Text-1B硬件要求根据官方信息HRM-Text-1B的训练只需要• 16块H100跑不到两天• 训练成本约1500美元推理阶段1B模型在单张A100或甚至消费级GPU如RTX 4090上即可流畅运行。环境搭建# 1. 克隆仓库git clone https://github.com/sapientinc/HRM-Text.gitcd HRM-Text# 2. 安装依赖pip install -r requirements.txt# 3. 从HuggingFace下载模型# 模型会自动从HuggingFace Hub下载或手动下载权重放到weights/目录三、实操步骤步骤1快速推理测试from transformers import AutoTokenizer, AutoModelForCausalLMimport torch# 加载模型和tokenizermodel_name sapientinc/HRM-Text-1Btokenizer AutoTokenizer.from_pretrained(model_name)model AutoModelForCausalLM.from_pretrained(model_name,torch_dtypetorch.float16,device_mapauto)# 准备输入instruction-response格式prompt ### Instruction:请解释一下什么是递归并举一个生活中的例子。### Response:inputs tokenizer(prompt, return_tensorspt).to(model.device)# 生成outputs model.generate(**inputs,max_new_tokens256,temperature0.7,do_sampleTrue,pad_token_idtokenizer.eos_token_id)print(tokenizer.decode(outputs[0], skip_special_tokensTrue))步骤2批量推理评估Benchmark# 官方评估脚本示例python evaluate.py \--model sapientinc/HRM-Text-1B \--tasks mmlu,arc_challenge,gsm8k,math,drop \--batch_size 8 \--num_fewshot 5步骤3自定义微调from transformers import TrainingArguments, Trainertraining_args TrainingArguments(output_dir./hrm-text-finetuned,per_device_train_batch_size4,gradient_accumulation_steps8,learning_rate2e-5,num_train_epochs3,fp16True,logging_steps10,save_strategyepoch,)trainer Trainer(modelmodel,argstraining_args,train_datasettrain_dataset, # instruction-response格式tokenizertokenizer,)trainer.train()四、使用指南HRM-Text的适用场景场景推荐度说明数学推理 ⭐⭐⭐⭐⭐ GSM8K 84.5%, MATH 56.2%逻辑推理 ⭐⭐⭐⭐⭐ ARC-C 81.9%阅读理解 ⭐⭐⭐⭐ DROP 82.2%通用对话 ⭐⭐⭐ 未经过RLHF优化知识问答 ⭐⭐⭐ 训练数据量有限代码生成 ⭐⭐⭐ 需微调注意事项1. 这不是一个成熟的聊天模型HRM-Text目前只是Proof of Concept没有经过完整的post-training、RLHF或大规模产品化验证2. 知识覆盖有限仅使用约40B unique tokens训练知识覆盖不如大模型3. 长上下文能力待验证官方未公布长上下文测试结果4. 工具使用能力待验证尚未展示Agent/工具调用能力与同类模型对比模型参数量训练Token 训练成本 MMLU ARC-CHRM-Text 1B 40B ~$1,500 60.7% 81.9%Llama 3.2 3B 3B 9T ~$数百万 ~50% ~65%Qwen3 2B 2B 36T ~$数百万 ~55% ~70%五、HRM架构的深层意义HRM-Text的意义不只是1B模型已经赢了。它让行业看到了模型能力增长除了参数、数据和算力之外也许还有另一个更底层的变量——计算结构。从写出思维链到形成内部思维结构下一代推理模型不应该只靠输出更长的文字链条而应该在潜空间中进行更深的内部计算。HRM的贡献是先把高层—低层双时间尺度递归推理做成了可运行、可开源、可验证的模型系统。而Bengio团队参与的GRAM论文进一步把这种递归潜空间推理推进到概率生成、多轨迹采样的方向。企业AI建设的启示对企业来说当前AI落地面临的核心问题不只是模型能力不够而是• 训练贵• 基础设施重• 迭代周期慢• 试错成本高HRM-Text提供的启发是如果模型架构本身能够提高计算效率那么企业AI能力建设不必完全依赖更大模型和更重基础设施。未来方向Sapient对HRM的长期判断可以概括为Lean General Intelligence精简通用智能。• 模型不需要记住一切但需要学会如何思考、如何查找、如何学习、如何使用信息• 这就是reasoning-knowledge decoupling推理-知识解耦未来HRM可以作为底层推理内核Reasoning Core扮演• Reliability Diagnostician诊断复杂系统稳定性• System Optimizer分析系统行为、发现性能瓶颈• Data Organizer把企业知识组织成可检索、可推理的记忆系统• Tool Calling Director决定何时调用哪个工具规划调用顺序总结HRM-Text的出现提醒整个行业AI的未来不应该只有一条路。更大的模型会继续重要但更会思考的模型可能才是下一轮推理架构真正的入口。从HRM-Symbolic到HRM-Text再到Bengio参与的GRAM对HRM骨架的高度复用分层递归推理已经不再只是Sapient的内部路线而正在成为下一代推理模型的重要方向。如果觉得这篇文章对你有帮助欢迎点赞、收藏、评论我们明天继续分享最新的AI技术资讯和实战教程。

永久保存微信聊天记录的终极方案：WeChatMsg免费开源工具完整指南

永久保存微信聊天记录的终极方案：WeChatMsg免费开源工具完整指南【免费下载链接】WeChatMsg 提取微信聊天记录，将其导出成HTML、Word、CSV文档永久保存，对聊天记录进行分析生成年度聊天报告项目地址: https://gitcode.com/GitHub_Trendin…

2026/6/14 21:39:20 阅读更多

C++高并发场景选型指南：除了concurrentqueue，还有哪些无锁队列值得一试？

C高并发场景选型指南：无锁队列全景对比与实战解析当你的系统吞吐量达到每秒百万级请求时，传统加锁队列可能成为性能瓶颈。我曾在一个高频交易系统中亲眼目睹，仅仅因为队列锁竞争导致的延迟波动就让整个系统损失了15%的吞吐量。这就是为什么现…

2026/6/14 21:39:20 阅读更多

Linux rm-rf 执行后，硬盘空间变化

Linux rm-rf 执行后，硬盘空间会直接减少释放吗？不会立即释放给操作系统，但空间会立即从文件系统中“消失”为可用状态。为了让你更准确地理解这个过程，需要区分两种情况（假设你使用的是标准的 Linux 文件系统&#xff…

2026/6/14 21:38:59 阅读更多

NSK NH20GM 直线导轨技术指南

NH20GM 是 NSK（日本精工）NH系列直线导轨中的超高负载型/长型规格的法兰型滑块型号（“GM”代表带有向两侧延伸的法兰，且滑块长度比标准型的“EM”更长）。这种设计不仅具有法兰型宽阔安装面的优点，还因内部承…

2026/6/14 23:16:43 阅读更多

3分钟搞定！APK-Installer：Windows上安装安卓应用的终极完整指南

3分钟搞定！APK-Installer：Windows上安装安卓应用的终极完整指南【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 你是否曾经想在Windows电脑上安…

2026/6/14 23:16:23 阅读更多

React/Vue 全栈开发：CSS Houdini 与自定义绘制 API 的实践

React/Vue 全栈开发：CSS Houdini 与自定义绘制 API 的实践一、CSS 的表达力边界 CSS 在布局和动画方面表现优秀，但有些效果难以实现——比如沿不规则路径排列文字、生成基于噪声函数的有机纹理，或是实时响应用户交互的形变效果。这些通常需要…

2026/6/14 23:14:21 阅读更多

独立开发者的 3D 资产生成：一套轻量级工作流实战

独立开发者的 3D 资产生成：一套轻量级工作流实战为什么独立开发者需要 AI 3D？ 做独立产品时，3D 资产（图标、插图、产品模型）往往是最头疼的资源。传统 3D 建模门槛太高，Blender、Maya 这些软件学习曲线陡峭…

2026/6/14 23:14:21 阅读更多

一文吃透 Nacos 两大核心能力：注册中心 + 分布式配置中心全流程实操

一、Nacos核心两大能力服务注册&发现：替代Eureka、Consul，微服务自动注册、健康检测、负载均衡、优雅上下线；分布式配置中心：统一托管配置、多环境隔离、配置动态下发刷新，无需重启服务，替代Spring C…

2026/6/14 23:13:21 阅读更多

从MATLAB代码到故障诊断：手把手教你分析风机CMS振动数据（附完整脚本）

工业风机振动数据诊断实战：从MATLAB代码到故障特征解析在工业设备健康管理领域，振动数据分析是识别潜在机械故障的黄金标准。特别是对于风力发电机组这类高价值资产，提前发现轴承、齿轮箱等关键部件的异常状态，能够避免数百万的意…

2026/6/14 23:12:20 阅读更多

音乐文件解锁实战指南：3个场景解决你的播放困境

音乐文件解锁实战指南：3个场景解决你的播放困境【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库： 1. https://github.com/unlock-music/unlock-music ；2. https://git.unlock-music.dev/um/web 项目地址: https://git…

2026/6/14 0:00:09 阅读更多

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

遥感卫星数据选型实战指南：从参数解析到场景化应用当面对GEE、PIE-Engine等云平台上数十种遥感数据源时，许多研究者常陷入选择困难——Landsat的历史连续性、Sentinel-2的红边波段优势、高分系列的亚米级分辨率各有千秋。本文将打破常规参数罗列式对比&a…

2026/6/14 0:00:30 阅读更多

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

1. 项目概述：MC68302 AutoBaud技术深度解析在嵌入式系统开发，尤其是那些需要与外部设备进行串口通信的场景里，最让人头疼的环节之一就是波特率匹配。想象一下，你设计了一个数据采集终端，需要连接来自不同厂家、不同年代…

2026/6/14 0:01:11 阅读更多

音乐文件解锁实战指南：3个场景解决你的播放困境

2026/6/14 0:00:09 阅读更多

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

2026/6/14 0:00:30 阅读更多

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

2026/6/14 0:01:11 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/14 10:35:25 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/14 10:02:42 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/14 10:02:42 阅读更多

相关文章

永久保存微信聊天记录的终极方案：WeChatMsg免费开源工具完整指南

C++高并发场景选型指南：除了concurrentqueue，还有哪些无锁队列值得一试？

Linux rm-rf 执行后，硬盘空间变化

NSK NH20GM 直线导轨技术指南

3分钟搞定！APK-Installer：Windows上安装安卓应用的终极完整指南

React/Vue 全栈开发：CSS Houdini 与自定义绘制 API 的实践

独立开发者的 3D 资产生成：一套轻量级工作流实战

一文吃透 Nacos 两大核心能力：注册中心 + 分布式配置中心全流程实操

从MATLAB代码到故障诊断：手把手教你分析风机CMS振动数据（附完整脚本）

音乐文件解锁实战指南：3个场景解决你的播放困境

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

音乐文件解锁实战指南：3个场景解决你的播放困境

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因