分层记忆缓冲：AI大模型长文本处理的“记忆宫殿”

发布时间：2026/6/18 20:44:00

在认知科学中人类记忆并非单一容器而是由感觉记忆、短时记忆和长时记忆构成的分层系统。计算机架构师也早已深谙此道——从L1缓存到内存再到磁盘逐级扩展容量每一层都平衡着速度与成本。如今这个思想正在大语言模型领域焕发新生帮助Transformer突破上下文窗口的限制。这就是本文要探讨的核心分层记忆缓冲Hierarchical Memory Buffer。本文不仅会讲解概念还会给出可落地的PyTorch代码覆盖工作记忆、情节记忆、压缩记忆及自主调度等完整实现。1. 为什么大模型需要一个记忆系统标准Transformer的自注意力复杂度随序列长度平方增长即便有了FlashAttention等优化处理百万级token的长文档时仍面临两大顽疾遗忘首部信息过长输入会超出位置编码有效范围模型“看了后面忘前面”。推理成本爆炸KV Cache线性增长内存和计算不堪重负。一种自然的思路是我们不把全部历史压进同一个注意力窗口而是让模型学会分层存储和召回信息。这正是分层记忆缓冲的出发点。2. 分层记忆缓冲的通用蓝图在神经网络中分层记忆通常抽象为三层结构层级类比容量读写速度典型实现工作记忆L1 缓存 / 短时记忆几k tokens极高直接注意力当前窗口的KV Cache情节记忆内存 / 长时记忆几十万tokens中等检索/前馈外部键值库、kNN索引语义记忆磁盘 / 永久知识近乎无限较慢压缩/参数化模型参数、向量数据库、摘要树推理时模型就像一位带着笔记本的学者工作记忆是当前段落情节记忆是手边快速查阅的索引卡片语义记忆是大脑中长期内化的知识。下面我们逐层用代码实现。3. 工作记忆当前窗口的KV Cache任何Transformer推理都离不开KV Cache。在分层记忆中工作记忆就是当前正在处理的片段对应的缓存通过限制长度来模拟容量上限。importtorchimporttorch.nnasnnclassWorkingMemory(nn.Module):def__init__(self,num_layers,num_heads,head_dim,max_len4096):super().__init__()self.num_layersnum_layers self.num_headsnum_heads self.head_dimhead_dim self.max_lenmax_len# 每一层维护K和V的缓存初始为空self.k_cacheNoneself.v_cacheNonedefupdate(self,new_k,new_v,layer_idx):将新片段的KV追加到缓存并截断至最大长度ifself.k_cacheisNone:self.k_cache[None]*self.num_layers self.v_cache[None]*self.num_layersifself.k_cache[layer_idx]isNone:self.k_cache[layer_idx]new_k self.v_cache[layer_idx]new_velse:self.k_cache[layer_idx]torch.cat([self.k_cache[layer_idx],new_k],dim1)self.v_cache[layer_idx]torch.cat([self.v_cache[layer_idx],new_v],dim1)# 截断保证工作记忆不溢出ifself.k_cache[layer_idx].size(1)self.max_len:self.k_cache[layer_idx]self.k_cache[layer_idx][:,-self.max_len:]self.v_cache[layer_idx]self.v_cache[layer_idx][:,-self.max_len:]在实际注意力计算时query不仅关注当前片段的KV还会关注工作记忆中的KV。这正是标准自回归生成流程此处不再赘述。4. 情节记忆kNN增强的外部记忆Memorizing TransformersGoogle的Memorizing Transformers将过去所有token的Key-Value存入kNN索引作为情节记忆。我们使用faiss实现一个简化版。4.1 构建外部记忆库importfaissimportnumpyasnpclassEpisodicMemory:def__init__(self,key_dim,capacity100000):self.key_dimkey_dim self.capacitycapacity self.keys[]# 存储所有过去的Keyself.values[]# 存储所有过去的Valueself.indexfaiss.IndexFlatIP(key_dim)# 内积相似度与注意力点积对齐defadd(self,keys,values):keys: [seq_len, key_dim], values: [seq_len, value_dim]self.keys.extend(keys.detach().cpu().numpy())self.values.extend(values.detach().cpu().numpy())# 保持容量限制iflen(self.keys)self.capacity:self.keysself.keys[-self.capacity:]self.valuesself.values[-self.capacity:]# 重建索引实际可使用增量索引此处简化self.indexfaiss.IndexFlatIP(self.key_dim)iflen(self.keys)0:self.index.add(np.array(self.keys).astype(np.float32))defsearch(self,query,top_k32):query: [batch*heads, q_len, key_dim]orig_shapequery.shape query_npquery.reshape(-1,self.key_dim).detach().cpu().numpy().astype(np.float32)scores,indicesself.index.search(query_np,top_k)# 根据索引取出对应的valueretrieved_vals[]foridx_rowinindices:row_vals[self.values[i]foriinidx_row]retrieved_vals.append(torch.tensor(np.array(row_vals)))retrieved_valstorch.stack(retrieved_vals).view(*orig_shape[:-1],top_k,-1)returnretrieved_vals,torch.tensor(scores).view(*orig_shape[:-1],top_k)4.2 将外部记忆融入注意力修改注意力计算将检索到的记忆值通过softmax融合并使用可学习的门控与本地注意力结合。defattention_with_memory(query,key,value,episodic_memory,top_k32):# 1. 正常局部注意力attn_scorestorch.matmul(query,key.transpose(-2,-1))/math.sqrt(query.size(-1))attn_probstorch.softmax(attn_scores,dim-1)local_outputtorch.matmul(attn_probs,value)# 2. 从情节记忆检索mem_values,mem_scoresepisodic_memory.search(query,top_k)mem_scoresmem_scores/math.sqrt(query.size(-1))mem_probstorch.softmax(mem_scores,dim-1)mem_outputtorch.matmul(mem_probs.unsqueeze(-2),mem_values).squeeze(-2)# 3. 可学习门控融合此处简化为固定值实际可训练gatetorch.sigmoid(torch.tensor(0.5))outputgate*local_output(1-gate)*mem_outputreturnoutput推理一个片段后将该片段的K、V存入情节记忆episodic_memory.add(layer_k[0],layer_v[0])# batch中第一个样本5. 递归压缩记忆用摘要向量传递AutoCompressor / Infini-Transformer另一种路径是将长序列压缩为固定数量的“记忆token”。这些token作为下一片段的前缀扮演情节记忆。5.1 记忆压缩模块classCompressiveMemory(nn.Module):def__init__(self,dim,num_memory_tokens16):super().__init__()# 可学习的记忆查询向量负责从片段中提取信息self.memory_queriesnn.Parameter(torch.randn(num_memory_tokens,dim))self.cross_attnnn.MultiheadAttention(dim,num_heads8,batch_firstTrue)defforward(self,segment_hidden): segment_hidden: [batch, seg_len, dim] 返回压缩后的记忆: [batch, num_memory_tokens, dim] queriesself.memory_queries.unsqueeze(0).expand(segment_hidden.size(0),-1,-1)compressed,_self.cross_attn(queries,segment_hidden,segment_hidden)returncompressed5.2 片段间记忆传递处理长文档时将前一片段的压缩记忆拼接到当前段embedding之前实现记忆的递归传递。classHierarchicalTransformer(nn.Module):def__init__(self,base_transformer,num_memory_tokens16):super().__init__()self.transformerbase_transformer self.memory_compressorCompressiveMemory(base_transformer.d_model,num_memory_tokens)self.memoryNone# 上一片段的压缩记忆defforward(self,input_ids,segment_length2048):segmentsinput_ids.split(segment_length,dim1)outputs[]forseginsegments:ifself.memoryisnotNone:seg_embself.transformer.embedding(seg)seg_embtorch.cat([self.memory,seg_emb],dim1)# 记忆作为前缀else:seg_embself.transformer.embedding(seg)hiddenself.transformer(seg_emb)# 简化实际需处理maskoutputs.append(hidden)# 压缩当前段最后一部分作为新记忆self.memoryself.memory_compressor(hidden[:,-segment_length:])returntorch.cat(outputs,dim1)这种设计使得记忆规模恒定不会随时间增长。6. 操作系统式记忆LLM自主管理读写MemGPTMemGPT让LLM通过函数调用显式管理外部记忆。我们可借助OpenAI Function Calling的风格实现。6.1 定义记忆工具importjsonclassMemoryStore:def__init__(self):self.storage{}self.conversation_history[]defread(self,key):returnself.storage.get(key,Memory not found.)defwrite(self,key,content):self.storage[key]contentreturnfStored {key}.defsearch(self,query):results{k:vfork,vinself.storage.items()ifqueryinv}returnjson.dumps(results)# 工具定义符合OpenAI function calling格式tools[{name:read_memory,description:Read content from external memory by key.,parameters:{type:object,properties:{key:{type:string}},required:[key]}},{name:write_memory,description:Write a key-content pair to external memory.,parameters:{type:object,properties:{key:{type:string},content:{type:string}},required:[key,content]}},{name:search_memory,description:Search memory for a query string.,parameters:{type:object,properties:{query:{type:string}},required:[query]}}]6.2 自主记忆调度与LLM交互时让模型决定何时读写记忆。defllm_with_memory(user_message,model):messages[{role:system,content:You have an external memory. Use read/write/search_memory to manage it.},{role:user,content:user_message}]responsemodel.chat(messages,toolstools)ifresponse.tool_calls:fortool_callinresponse.tool_calls:func_nametool_call.function.name argsjson.loads(tool_call.function.arguments)iffunc_nameread_memory:resultmemory_store.read(args[key])eliffunc_namewrite_memory:resultmemory_store.write(args[key],args[content])eliffunc_namesearch_memory:resultmemory_store.search(args[query])messages.append({role:tool,content:result,name:func_name})final_responsemodel.chat(messages)returnfinal_response.contentelse:returnresponse.content模型可以自行将不重要的内容换出需要时再检索实现动态上下文扩展。7. 训练分层记忆让梯度流过记忆边界要让模型学会何时写入、如何压缩记忆操作必须可微或采用强化学习。7.1 可微的近似检索在训练时用全部过去key的softmax近似替代kNN硬检索使梯度能够回传。defdifferentiable_memory_retrieval(query,all_past_keys,all_past_values,top_k32):scorestorch.matmul(query,all_past_keys.transpose(-2,-1))/math.sqrt(query.size(-1))topk_scores,topk_indicestorch.topk(scores,top_k,dim-1)topk_probstorch.softmax(topk_scores,dim-1)retrieved_valuestorch.gather(all_past_values,1,topk_indices.unsqueeze(-1).expand(-1,-1,-1,all_past_values.size(-1)))returntorch.matmul(topk_probs.unsqueeze(-2),retrieved_values).squeeze(-2)7.2 压缩记忆的自监督损失对于压缩记忆可以要求模型从压缩向量重建原始片段作为辅助损失。defcompression_loss(compressed_memory,original_segment,decoder):reconstructeddecoder(compressed_memory)lossnn.CrossEntropyLoss()(reconstructed.view(-1,vocab_size),original_segment.view(-1))returnloss联合主任务损失一起优化迫使压缩记忆保留足够细节。8. 最小可行示例串起整个系统下面代码演示了一个极简的分层记忆LLM结合了工作记忆KV Cache和情节记忆外部存储。classMiniHierarchicalLLM:def__init__(self,transformer,episodic_memory_capacity10000):self.modeltransformer self.working_memoryWorkingMemory(num_layerstransformer.num_layers,num_headstransformer.num_heads,head_dimtransformer.head_dim,max_len4096)self.episodicEpisodicMemory(key_dimtransformer.d_model,capacityepisodic_memory_capacity)self.max_seg_len2048defgenerate(self,input_ids,max_new_tokens100):# 分段处理输入更新记忆segmentsinput_ids.split(self.max_seg_len,dim1)forseginsegments:hiddenself.model(seg,use_cacheTrue,past_key_valuesself.working_memory.k_cache)# 更新工作记忆self.working_memory.k_cachehidden.past_key_values# 将当前段的K,V存入情节记忆取最后一层last_k,last_vhidden.past_key_values[-1]self.episodic.add(last_k.squeeze(0),last_v.squeeze(0))generated[]currentinput_ids[:,-1:]# 从最后一个token开始自回归生成for_inrange(max_new_tokens):outputself.model(current,use_cacheTrue,past_key_valuesself.working_memory.k_cache,episodic_memoryself.episodic# 需要自行修改forward支持)next_tokenoutput.logits[:,-1:].argmax(dim-1)generated.append(next_token)currentnext_token# 工作记忆的缓存在模型内部自动更新returntorch.cat(generated,dim1)你可以从最简单的外部向量存储检索开始逐步加入压缩、自主调度和可微训练让你的模型拥有真正的长时记忆。9. 挑战与未来分层记忆缓冲已在代码库理解、终生对话代理等任务上展现潜力但仍面临挑战记忆冗余与遗忘如何优雅地淘汰旧信息能否模拟记忆的“再巩固”过程跨层级重组能否增加离线阶段自动将情节记忆提炼进语义记忆模型参数隐私与安全外部记忆可能包含敏感信息选择性遗忘机制至关重要。多模态统一记忆能否将文本、图像、音频映射到同一套键值空间10. 结语分层记忆缓冲并非要让大模型变成笨重的数据库系统而是赋予它一种组织自身经验的能力。正如记忆术中的“记忆宫殿”——将信息放置在熟悉的空间结构中逐层导引随时提取。本文给出的代码片段为你提供了构建记忆系统的基石。无论你是想为聊天机器人增加长期记忆还是让代码助手理解整个仓库都可以从这里开始。随着我们向通用人工智能迈进记忆的架构可能比模型本身更能定义其思考的深度与连贯性。延伸阅读Memorizing Transformers (Wu et al., 2022)MemGPT: Towards LLMs as Operating Systems (Packer et al., 2023)Infini-Transformer: Infinite Context with Compressive MemoryAutoCompressor: Long Context Compression via Summary Tokens

WSL文件传输全攻略：架构解析、性能优化与实战技巧

1. 项目概述：为什么需要Windows与WSL之间传文件？如果你正在使用Windows Subsystem for Linux，也就是我们常说的WSL，那么“如何在Windows和WSL之间传文件”这个问题，几乎是你从入门到精通路上绕不开的第一个坎。这听起来…

2026/6/18 20:44:00 阅读更多

Mermaid Live Editor终极指南：免费在线图表编辑神器，告别绘图烦恼

Mermaid Live Editor终极指南：免费在线图表编辑神器，告别绘图烦恼【免费下载链接】mermaid-live-editor Edit, preview and share mermaid charts/diagrams. New implementation of the live editor. 项目地址: https://gitcode.com/GitHub_Trending/…

2026/6/18 20:42:59 阅读更多

经典功率晶体管2N1722/1724参数解析与实战应用指南

1. 项目概述：从一颗“老将”晶体管说起最近在整理工作室的元件库，翻出了一盒老旧的金属壳晶体管，上面印着“2N1722”的字样。这让我想起了早年维修大功率音频功放和稳压电源的日子，这些NPN硅高功率管曾是那个时代的“肌肉”担当。…

2026/6/18 20:41:58 阅读更多

PowerSetting下载慢问题分析

PowerSetting下载慢问题分析现象描述：用户反馈PowerSetting安装包或更新下载速度缓慢可能原因： 服务器地理位置远导致延迟高带宽资源不足或并发请求过高网络链路质量不稳定缺乏有效的分发优化机制 CDN加速解决方案 CDN原理：通过边缘节点…

2026/6/18 22:00:23 阅读更多

三步掌握免费在线图表编辑：Mermaid Live Editor终极指南

三步掌握免费在线图表编辑：Mermaid Live Editor终极指南【免费下载链接】mermaid-live-editor Edit, preview and share mermaid charts/diagrams. New implementation of the live editor. 项目地址: https://gitcode.com/GitHub_Trending/me/mermaid-live-edit…

2026/6/18 22:00:03 阅读更多

终极指南：5分钟掌握华硕笔记本风扇异常修复与G-Helper散热优化

终极指南：5分钟掌握华硕笔记本风扇异常修复与G-Helper散热优化【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops with nearly the same functionality. Works with ROG Zephyrus, Flow, TUF, Strix, Scar, ProArt, Vivobook, Zen…

2026/6/18 21:59:42 阅读更多

彻底告别限速！2020百度网盘高速下载神器PDown完全指南

彻底告别限速！2020百度网盘高速下载神器PDown完全指南【免费下载链接】pdown 百度网盘下载器，2020百度网盘高速下载项目地址: https://gitcode.com/gh_mirrors/pd/pdown 还在为百度网盘下载速度慢而烦恼吗？今天我要为大家介绍一款20…

2026/6/18 21:59:00 阅读更多

终极Windows Cleaner完整指南：如何快速解决C盘爆红问题

终极Windows Cleaner完整指南：如何快速解决C盘爆红问题【免费下载链接】WindowsCleaner Windows Cleaner——专治C盘爆红及各种不服！ 项目地址: https://gitcode.com/gh_mirrors/wi/WindowsCleaner Windows Cleaner是一款专为Windows用户设计的免…

2026/6/18 21:57:19 阅读更多

（良心整理）实测靠谱的AI写作辅助软件，毕业生收藏备用

毕业季论文写作真的这么难？选题纠结、文献翻不完、写到一半卡壳、查重反复修改、格式反复调整…… 这份实测过的AI论文工具合集，涵盖中英文写作、全流程辅助、专项功能、免费与高性价比选项，从开题到定稿全程护航，毕业生直接收藏用…

2026/6/18 21:55:17 阅读更多

Java毕设选题推荐：基于 Spring Boot 的个人随笔博客运维管理系统的设计与实现基于 Spring Boot 的用户原创博客分享社区【附源码、mysql、文档、调试+代码讲解+全bao等】

博主介绍：✌️码农一枚 ，专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围：&am…

2026/6/18 0:00:19 阅读更多

【IC】【Low Power】从功耗构成到设计实践：CMOS低功耗技术全景解析

1. CMOS电路功耗构成解析在芯片设计中，功耗就像汽车的油耗指标，直接影响着设备的续航能力和发热表现。想象一下你的手机如果功耗控制不好，可能用不了半天就得充电，还会烫得像暖手宝。CMOS电路的功耗主要来自两个"耗电大户&q…

2026/6/18 0:02:02 阅读更多

跨平台音乐播放神器：LX Music桌面版一站式解决多平台音乐聚合难题

跨平台音乐播放神器：LX Music桌面版一站式解决多平台音乐聚合难题【免费下载链接】lx-music-desktop 一个基于 Electron 的音乐软件项目地址: https://gitcode.com/GitHub_Trending/lx/lx-music-desktop 你是否厌倦了在不同音乐平台间来回切换？…

2026/6/18 0:04:07 阅读更多

音乐文件解锁实战指南：3个场景解决你的播放困境

音乐文件解锁实战指南：3个场景解决你的播放困境【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库： 1. https://github.com/unlock-music/unlock-music ；2. https://git.unlock-music.dev/um/web 项目地址: https://git…

2026/6/18 0:35:55 阅读更多

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

遥感卫星数据选型实战指南：从参数解析到场景化应用当面对GEE、PIE-Engine等云平台上数十种遥感数据源时，许多研究者常陷入选择困难——Landsat的历史连续性、Sentinel-2的红边波段优势、高分系列的亚米级分辨率各有千秋。本文将打破常规参数罗列式对比&a…

2026/6/18 0:35:55 阅读更多

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

1. 项目概述：MC68302 AutoBaud技术深度解析在嵌入式系统开发，尤其是那些需要与外部设备进行串口通信的场景里，最让人头疼的环节之一就是波特率匹配。想象一下，你设计了一个数据采集终端，需要连接来自不同厂家、不同年代…

2026/6/18 0:35:55 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/18 11:04:37 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/18 11:04:30 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/18 11:04:30 阅读更多

相关文章

WSL文件传输全攻略：架构解析、性能优化与实战技巧

Mermaid Live Editor终极指南：免费在线图表编辑神器，告别绘图烦恼

经典功率晶体管2N1722/1724参数解析与实战应用指南

PowerSetting下载慢问题分析

三步掌握免费在线图表编辑：Mermaid Live Editor终极指南

终极指南：5分钟掌握华硕笔记本风扇异常修复与G-Helper散热优化

彻底告别限速！2020百度网盘高速下载神器PDown完全指南

终极Windows Cleaner完整指南：如何快速解决C盘爆红问题

（良心整理）实测靠谱的AI写作辅助软件，毕业生收藏备用

Java毕设选题推荐：基于 Spring Boot 的个人随笔博客运维管理系统的设计与实现 基于 Spring Boot 的用户原创博客分享社区【附源码、mysql、文档、调试+代码讲解+全bao等】

【IC】【Low Power】从功耗构成到设计实践：CMOS低功耗技术全景解析

跨平台音乐播放神器：LX Music桌面版一站式解决多平台音乐聚合难题

音乐文件解锁实战指南：3个场景解决你的播放困境

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

Java毕设选题推荐：基于 Spring Boot 的个人随笔博客运维管理系统的设计与实现基于 Spring Boot 的用户原创博客分享社区【附源码、mysql、文档、调试+代码讲解+全bao等】