大模型“睡眠”机制：提升推理能力，训练成本却线性增长？

发布时间：2026/6/6 19:41:09

1. 长上下文困境很长一段时间「长上下文」是各大模型厂商军备竞赛焦点从 128K 到 1M再到更长上下文窗口。业界认为窗口足够大模型就能记住更多内容、处理更复杂任务。但问题也随之而来上下文越长KV Cache 越臃肿导致显存被「吃光」、推理速度缓慢、成本上升。而且把更多 token 放进窗口不代表模型能将信息转化为可推理的长期记忆在复杂推理任务中模型常因「记不住细节」而翻车。2. 新视角语言模型需要睡眠近日卡内基梅隆大学CMU联合马里兰大学等在新论文《Language Models Need Sleep》中提出有意思的视角让 LLM「睡一觉」。这里的「睡眠」是一种类似睡眠的「记忆巩固机制」。作者认为基于 Transformer 的大语言模型用于长程任务时注意力机制扩展性较差为此研究出该机制。在睡眠过程中模型对累积的上下文执行 N 次离线递归前向传播通过学习得到的局部规则更新状态空间模型SSM模块中的快速权重fast weights。推理阶段这种方法把额外计算转移到「睡眠」阶段保持模型「醒着」预测时的延迟不变。3. 从动物睡眠获得启发论文灵感来自动物睡眠中的记忆巩固过程。神经科学研究认为动物从短期记忆到长期记忆的转移受海马体 replay 机制支持尤其在睡眠期间短期海马体记忆会被重新激活并巩固到皮层突触权重中。基于此作者提出把上下文窗口记忆转移到持久权重中的方法。当模型上下文窗口在推理过程中被填满模型进入「睡眠」状态对累积的上下文执行多次前向传播通过学习得到的局部规则递归更新 fast weights此阶段模型不接收外部输入 token。巩固完成后上下文窗口清空模型带着更新后的 fast weights 继续运行。训练过程中模型通过整个过程的反向传播进行端到端优化以最大化睡眠之后的任务表现。大模型训练过程分为「醒着」和「睡眠」两个阶段。「醒着」阶段模型像普通 Transformer 一样正常工作接收长文本输入快速给出预测和回复「睡眠」阶段模型进入「离线睡眠状态」对积累的上下文进行 N 次循环往复的离线处理将近期上下文中的关键细节转化为持久的 fast weights 并写入 SSM 模块。4. 实验睡得越久推理越强为验证增加睡眠时 N 能否提升模型对「旧」上下文的推理能力作者进行系列实验。以更接近自然语言的数学推理任务 GSM - Infinite 为例它通过添加干扰 token 拉长题目用所需算术操作数控制难度。作者在 Jet - Nemotron 2B 和 Ouro 1.4B 两个预训练模型上测试模型的「睡眠」机制。结果显示题目越难「睡眠」带来的提升越明显。对于 Jet - Nemotron 2B6 次 sleep loop 将 6 步运算题准确率从 0.742 提升到 0.812将 8 步运算题从 0.351 提升到 0.388对于 Ouro 1.4B4 次 sleep loop 将 6 步运算题准确率从 0.419 提升到 0.615将 8 步运算题从 0.210 提升到 0.272。「睡眠」机制对简单题帮助相对不明显在复杂任务中「睡眠」阶段的额外计算开始发挥作用。5. 局限性效果明显代价同样明显作者坦言这种方法通过把额外递归计算转移到巩固阶段保持了预测阶段的单次前向传播延迟但收益并非免费。训练过程中需要执行 N 次更深的前向和反向传播会让训练变慢且可能不稳定。执行 N 次带来效果明显提升但训练成本也随其线性增长。这项工作目前主要是方法论探索该方法主要贡献在方法论层面评估基于受控合成任务和中等规模预训练模型还不是在超大规模商用模型、真实长程 Agent 系统中充分验证的成熟方案。

如何选择远心镜头内同轴光源和外同轴光源

机器视觉领域，成像硬件的选择直接影响成像质量，而镜头与光源的搭配更是关键中的关键。许多工程师在实际项目中常面临一个难题：远心镜头内同轴光源和外同轴光源到底如何选择？ 今天我们将从原理、效果、适用场景，为你对比…

2026/6/6 19:41:09 阅读更多

小程序制作平台推荐，2026 高口碑平台盘点

小程序制作平台推荐，2026 高口碑平台盘点这4个是小编觉得还算靠谱的，纯个人感受，不一定适合所有人，但至少能帮你少走点弯路哦~1. 凡科轻站小程序（千万用户选择的小程序制作专家）凡科轻站小程序是千万用户选…

2026/6/6 19:41:09 阅读更多

如何用KDiskMark快速诊断Linux磁盘性能问题：终极指南

如何用KDiskMark快速诊断Linux磁盘性能问题：终极指南【免费下载链接】KDiskMark A simple open-source disk benchmark tool for Linux distros 项目地址: https://gitcode.com/gh_mirrors/kd/KDiskMark 你是否曾经遇到Linux系统启动缓慢、文件复制卡顿&…

2026/6/6 19:39:48 阅读更多

如何快速构建开源四足机器人：Stanford Doggo完整入门指南

如何快速构建开源四足机器人：Stanford Doggo完整入门指南【免费下载链接】StanfordDoggoProject Stanford Doggo is an open source quadruped robot that jumps, flips, and trots! 项目地址: https://gitcode.com/gh_mirrors/st/StanfordDoggoProject Sta…

2026/6/6 20:40:51 阅读更多

CSDN AI数字营销卡片跳转能力封测内幕（仅限头部客户开放）：小程序跳转灰度通道已开启，速抢首批接入名额

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的引流卡片支持跳转官网、小程序链接吗？ CSDN AI 数字营销平台提供的引流卡片，是面向技术创作者与企业用户的核心转化组件，其跳转能力直接影响获客链…

2026/6/6 20:40:31 阅读更多

性能测试、负载测试、压力测试之间的差异

🍅 点击文末小卡片 ，免费获取软件测试全套资料，资料在手，涨薪更快1、什么是性能测试性能测试是一种用于确定计算机、网络或设备速度的测试。它通过在不同的负载场景中传递不同的参数来检查系统组件的性能。2、什么是负载测试负载测…

2026/6/6 20:39:50 阅读更多

快速掌握OpenRocket：免费火箭设计仿真软件的完整指南

快速掌握OpenRocket：免费火箭设计仿真软件的完整指南【免费下载链接】openrocket Model-rocketry aerodynamics and trajectory simulation software 项目地址: https://gitcode.com/GitHub_Trending/op/openrocket OpenRocket是一款功能强大的免费开源火箭…

2026/6/6 20:38:49 阅读更多

CSDN AI数据看板能否查关键词排名？实测5类API接口+4层权限验证后给出 definitive 答案

更多请点击： https://kaifayun.com 第一章：CSDN AI 数字营销的数据看板能查看文章关键词排名数据吗？ CSDN AI 数字营销平台的数据看板目前**不直接提供第三方搜索引擎（如百度、360、搜狗）中文章关键词的实时自然排名数…

2026/6/6 20:38:49 阅读更多

WarcraftHelper终极指南：3分钟解决魔兽争霸III所有兼容性问题

WarcraftHelper终极指南：3分钟解决魔兽争霸III所有兼容性问题【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper WarcraftHelper是一款专为魔…

2026/6/6 20:37:48 阅读更多

Windows下免安装凸轮轮廓生成工具：支持多种从动件与运动规律的本地化计算与DXF导出

本文还有配套的精品资源，点击获取简介：专为机械设计场景打造的便携式凸轮设计辅助工具，运行在Windows平台，无需安装、不写注册表、不联网，双击主程序即可启动。提供直动/摆动两类从动件类型（尖顶、滚子…

2026/6/6 0:00:44 阅读更多

DeepPCB数据集：3步构建高精度PCB缺陷检测AI系统

DeepPCB数据集：3步构建高精度PCB缺陷检测AI系统【免费下载链接】DeepPCB A PCB defect dataset. 项目地址: https://gitcode.com/gh_mirrors/de/DeepPCB 还在为PCB（印刷电路板）缺陷检测项目找不到高质量数据集而烦恼吗？面…

2026/6/6 0:01:04 阅读更多

Aimmy完全指南：5分钟掌握免费AI瞄准辅助工具，提升游戏操作体验

Aimmy完全指南：5分钟掌握免费AI瞄准辅助工具，提升游戏操作体验【免费下载链接】Aimmy Universal Second Eye for Gamers with Impairments (Universal AI Aim Aligner (AI Aimbot) - ONNX/YOLOv8 - C#) 项目地址: https://gitcode.com/gh_mirrors/ai/…

2026/6/6 0:04:06 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/6 9:33:43 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/6 8:10:10 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/6 9:33:50 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…