HRM-Text:1500美元训出的1B模型,凭什么火了? 目录前言一、HRM-Text是什么二、环境/前置准备三、实操步骤四、使用指南五、HRM架构的深层意义总结前言最近AI圈有个消息炸了——一个参数量仅1B的小模型训练成本只要1500美元却在多个推理benchmark上打出了一组让人难以置信的成绩Benchmark HRM-Text 对比模型MMLU 60.7% 2-7B模型水平ARC-Challenge 81.9% 超越多数3B模型GSM8K 84.5% 接近7B模型MATH 56.2% 推理模型第一梯队DROP 82.2% 优秀更离谱的是它只用了约40B unique tokens训练而Llama 3.2 3B用了约9T tokens225倍Qwen3 2B用了约36T tokens900倍。HuggingFace CEO Clem Delangue亲自转发推荐图灵奖得主Yoshua Bengio团队也发布了高度复用HRM架构的GRAM论文。今天我们就来深度拆解这个HRM-Text看看它到底做了什么以及我们如何上手使用。一、HRM-Text是什么HRM-Text是由Sapient Intelligence发布的一个基础语言模型全称是Hierarchical Recurrent Model for Text。它不是传统意义上的小模型逆袭故事而是一次推理模型架构的换脑实验——把模型从边说边想变成先想完再说。核心创新点1. 分层递归推理架构HRM标准Transformer像一条流水线输入进来一层一层往前走每一层处理一次最后输出。HRM的思路完全不同它在模型内部放了两个以不同节奏工作的模块• 高层模块H战略脑更新得慢负责把握整体方向、维持长期上下文、决定当前应该往哪里想• 低层模块L执行脑更新得快负责局部计算、细节修正、一步步把问题往前推关键在于H和L不是两个外部Agent也不是两个模型互相发消息。它们在同一个神经网络里在同一个潜空间中反复更新同一份内部状态。打个比方标准Transformer像一篇文章依次交给30个编辑每个人只改一次。HRM更像两组编辑反复打磨同一份稿子——一组快速改细节一组慢慢把握整体方向。最后输出之前模型已经在脑内完成了多轮修正。2. 潜空间推理Latent Reasoning现在的推理模型很多时候像是在边说边想。Chain-of-Thought把推理过程写成一串token让模型一步一步输出中间过程。这当然有用但问题也很明显• Token越来越长账单越来越高• 中间一步错了后面就可能一路错下去• 推理过程被绑定在语言表面模型很容易学到像推理的文本却不一定真的掌握了推理的结构HRM问的是一个更激进的问题推理为什么一定要写出来人类做很多题并不是把脑内每一步都说成一句话。我们会在脑子里反复尝试、修正、排除、回退最后才说出答案。HRM想做的正是这件事——把草稿纸从嘴上拿下来放回模型的脑子里。3. 任务完成导向的训练目标大多数语言模型训练时会预测整个文本序列里的每一个token——问题、提示、上下文、答案统统要预测。HRM-Text更直接它用instruction-response数据从零训练但只对回答部分计算损失。直观理解就是老师批卷子时不再给抄题打分只看你答得对不对。这样训练信号会更集中地落在任务完成上而不是平均分散在整段文本里。这部分的关键是PrefixLM attention mask指令部分可以充分整合上下文回答部分再按因果生成方式输出。结果就是在decoder-only的实现里做出了一种近似encoder-decoder的效果。4. MagicNorm Warmup Deep Credit Assignment递归训练的难点在于循环越深训练越容易不稳定。同一组模块被反复调用后激活值方差可能累积梯度也更容易消失或爆炸。HRM-Text引入• MagicNorm让模型在多轮递归中保持激活稳定• Warmup Deep Credit Assignment不是一上来就让模型为所有深层递归步骤负责而是先让它学会短路径上的内部计算再慢慢把责任扩展到更深的推理过程二、环境/前置准备官方资源资源 链接GitHub https://github.com/sapientinc/HRM-TextHuggingFace模型 https://huggingface.co/sapientinc/HRM-Text-1B硬件要求根据官方信息HRM-Text-1B的训练只需要• 16块H100跑不到两天• 训练成本约1500美元推理阶段1B模型在单张A100或甚至消费级GPU如RTX 4090上即可流畅运行。环境搭建# 1. 克隆仓库git clone https://github.com/sapientinc/HRM-Text.gitcd HRM-Text# 2. 安装依赖pip install -r requirements.txt# 3. 从HuggingFace下载模型# 模型会自动从HuggingFace Hub下载或手动下载权重放到weights/目录三、实操步骤步骤1快速推理测试from transformers import AutoTokenizer, AutoModelForCausalLMimport torch# 加载模型和tokenizermodel_name sapientinc/HRM-Text-1Btokenizer AutoTokenizer.from_pretrained(model_name)model AutoModelForCausalLM.from_pretrained(model_name,torch_dtypetorch.float16,device_mapauto)# 准备输入instruction-response格式prompt ### Instruction:请解释一下什么是递归并举一个生活中的例子。### Response:inputs tokenizer(prompt, return_tensorspt).to(model.device)# 生成outputs model.generate(**inputs,max_new_tokens256,temperature0.7,do_sampleTrue,pad_token_idtokenizer.eos_token_id)print(tokenizer.decode(outputs[0], skip_special_tokensTrue))步骤2批量推理评估Benchmark# 官方评估脚本示例python evaluate.py \--model sapientinc/HRM-Text-1B \--tasks mmlu,arc_challenge,gsm8k,math,drop \--batch_size 8 \--num_fewshot 5步骤3自定义微调from transformers import TrainingArguments, Trainertraining_args TrainingArguments(output_dir./hrm-text-finetuned,per_device_train_batch_size4,gradient_accumulation_steps8,learning_rate2e-5,num_train_epochs3,fp16True,logging_steps10,save_strategyepoch,)trainer Trainer(modelmodel,argstraining_args,train_datasettrain_dataset, # instruction-response格式tokenizertokenizer,)trainer.train()四、使用指南HRM-Text的适用场景场景 推荐度 说明数学推理 ⭐⭐⭐⭐⭐ GSM8K 84.5%, MATH 56.2%逻辑推理 ⭐⭐⭐⭐⭐ ARC-C 81.9%阅读理解 ⭐⭐⭐⭐ DROP 82.2%通用对话 ⭐⭐⭐ 未经过RLHF优化知识问答 ⭐⭐⭐ 训练数据量有限代码生成 ⭐⭐⭐ 需微调注意事项1. 这不是一个成熟的聊天模型HRM-Text目前只是Proof of Concept没有经过完整的post-training、RLHF或大规模产品化验证2. 知识覆盖有限仅使用约40B unique tokens训练知识覆盖不如大模型3. 长上下文能力待验证官方未公布长上下文测试结果4. 工具使用能力待验证尚未展示Agent/工具调用能力与同类模型对比模型 参数量 训练Token 训练成本 MMLU ARC-CHRM-Text 1B 40B ~$1,500 60.7% 81.9%Llama 3.2 3B 3B 9T ~$数百万 ~50% ~65%Qwen3 2B 2B 36T ~$数百万 ~55% ~70%五、HRM架构的深层意义HRM-Text的意义不只是1B模型已经赢了。它让行业看到了模型能力增长除了参数、数据和算力之外也许还有另一个更底层的变量——计算结构。从写出思维链到形成内部思维结构下一代推理模型不应该只靠输出更长的文字链条而应该在潜空间中进行更深的内部计算。HRM的贡献是先把高层—低层双时间尺度递归推理做成了可运行、可开源、可验证的模型系统。而Bengio团队参与的GRAM论文进一步把这种递归潜空间推理推进到概率生成、多轨迹采样的方向。企业AI建设的启示对企业来说当前AI落地面临的核心问题不只是模型能力不够而是• 训练贵• 基础设施重• 迭代周期慢• 试错成本高HRM-Text提供的启发是如果模型架构本身能够提高计算效率那么企业AI能力建设不必完全依赖更大模型和更重基础设施。未来方向Sapient对HRM的长期判断可以概括为Lean General Intelligence精简通用智能。• 模型不需要记住一切但需要学会如何思考、如何查找、如何学习、如何使用信息• 这就是reasoning-knowledge decoupling推理-知识解耦未来HRM可以作为底层推理内核Reasoning Core扮演• Reliability Diagnostician诊断复杂系统稳定性• System Optimizer分析系统行为、发现性能瓶颈• Data Organizer把企业知识组织成可检索、可推理的记忆系统• Tool Calling Director决定何时调用哪个工具规划调用顺序总结HRM-Text的出现提醒整个行业AI的未来不应该只有一条路。更大的模型会继续重要但更会思考的模型可能才是下一轮推理架构真正的入口。从HRM-Symbolic到HRM-Text再到Bengio参与的GRAM对HRM骨架的高度复用分层递归推理已经不再只是Sapient的内部路线而正在成为下一代推理模型的重要方向。如果觉得这篇文章对你有帮助欢迎点赞、收藏、评论我们明天继续分享最新的AI技术资讯和实战教程。