DeepSeek 的上下文缓存是什么？它和程序里的 Redis 缓存一样吗？

发布时间：2026/5/25 8:07:12

最近 DeepSeek API 更新了一个很有意思的功能Context Caching也就是上下文缓存。我第一反应是疑惑大模型推理本身不是有随机性吗如果命中缓存那不就变成固定答案了吗那这个缓存还有什么意义后来查了 DeepSeek 官方文档后我发现这里的“缓存”和我们后端开发里常说的 Redis 缓存、接口缓存、页面缓存虽然思想类似但缓存对象完全不一样。一、结论先说DeepSeek 的缓存不是缓存最终回答。它缓存的是输入 prompt 的重复前缀长上下文的中间计算结果可以复用的上下文 KV 状态也就是说它缓存的是“模型读懂前面那一大段内容所做的计算”不是缓存“模型最后回答了什么”。所以即使命中缓存模型的输出仍然会重新生成仍然可能受到temperature、top_p等参数影响仍然可能有随机性。DeepSeek 官方文档也明确说明硬盘缓存只匹配用户输入的前缀部分输出仍然通过计算和推理生成并且会受到 temperature 等参数影响。参考DeepSeek Context Caching 官方文档。二、传统软件里的缓存是什么我们开发中常见的缓存一般是这样的Stringkeyuser:1001;Useruserredis.get(key);if(usernull){userdb.queryUser(1001);redis.set(key,user);}returnuser;这种缓存的特点是key 一样value 一样命中缓存后直接返回结果不再执行原来的计算或查询比如查询用户 ID 1001命中缓存后直接返回用户数据。这叫“结果缓存”它缓存的是最终结果。三、DeepSeek 的缓存不是结果缓存DeepSeek 的 Context Caching 更像是我不缓存最终答案我缓存模型处理重复上下文时产生的中间状态比如你有一个固定 system prompt你是一个专业的财报分析师请用严谨、结构化的方式回答问题。再加上一份很长的财报这里是一份 10 万 token 的财报内容……第一次请求system: 你是一个专业的财报分析师…… user: 财报全文请总结这份财报第二次请求system: 你是一个专业的财报分析师…… user: 同一份财报全文请分析公司的盈利能力这里前面的大部分内容都是重复的。如果每次都让模型重新处理整份财报就很浪费。DeepSeek 的缓存就是把这部分重复前缀的计算结果存下来。下次遇到相同前缀就复用这部分计算。注意最终回答仍然是重新生成的。四、它和 Redis 缓存像不像像但不完全像。相同点本质上都是为了避免重复计算。传统缓存相同查询 - 复用查询结果DeepSeek 缓存相同上下文前缀 - 复用上下文计算结果都是用空间换时间用存储换成本。不同点对比项传统软件缓存DeepSeek 上下文缓存缓存对象最终结果输入前缀的计算状态命中后是否直接返回是否输出是否固定通常固定不固定主要作用减少数据库/接口压力减少大模型重复推理成本开发者是否需要手动控制通常需要DeepSeek 默认自动开启DeepSeek 官方文档说明Context Caching 默认对所有用户开启不需要修改代码。每次请求都会触发硬盘缓存构建如果后续请求和之前请求存在重叠前缀重叠部分就可以从缓存读取。参考DeepSeek Context Caching 官方文档。五、为什么缓存不会让答案固定因为大模型生成答案分两步看第一步理解输入上下文第二步继续生成输出 tokenDeepSeek 缓存的是第一步中重复上下文的计算结果。它没有缓存第二步生成出来的最终文本。所以命中缓存后相当于前面这段我已经读过并处理过了不用重新算但接下来怎么回答还是重新生成举个开发者能理解的类比你让一个人读一本 100 页的文档然后回答问题。第一次他读完文档回答问题 A。第二次你又问问题 B。如果他已经记住了前面文档的内容他就不需要重新读 100 页。但他回答问题 B 的时候答案还是现想的不是把上一次答案复制出来。DeepSeek 的缓存大概就是这个意思。六、DeepSeek 缓存的命中规则DeepSeek 官方文档里提到缓存命中需要对应的前缀已经被持久化到磁盘缓存中。它不是任意相似都能命中而是需要“前缀匹配”。官方给了几个规则请求边界会持久化缓存前缀比如用户输入结束处、模型输出结束处。系统检测到多个请求有共同前缀时会把共同前缀作为独立缓存单元持久化。对于长输入或长输出系统会按固定 token 间隔切分缓存单元避免超长前缀因为没有到边界而完全无法缓存。所以它更适合下面这些场景多轮对话长文档问答固定 system prompt固定工具说明固定 few-shot 示例Agent 场景下的大量历史上下文复用七、怎样判断有没有命中缓存DeepSeek API 的 response usage 里有两个字段{prompt_cache_hit_tokens:10000,prompt_cache_miss_tokens:500}含义是prompt_cache_hit_tokens本次输入中命中缓存的 token 数prompt_cache_miss_tokens本次输入中没有命中缓存的 token 数DeepSeek 官方 API 文档说明prompt_tokens prompt_cache_hit_tokens prompt_cache_miss_tokens。这点对开发者很重要因为你可以通过这两个字段观察自己的 prompt 结构是否适合缓存。八、价格为什么会低很多因为命中缓存的输入 token 不需要完整重新计算所以价格更低。DeepSeek 官方价格页显示输入 token 会区分 cache hit 和 cache miss 计费。比如 deepseek-v4-flash 当前 cache hit 的输入价格明显低于 cache miss 输入价格。这说明它的商业逻辑很清楚重复上下文越多缓存命中越多输入成本越低。对于长上下文应用这个差距会非常明显。九、开发时怎样提高缓存命中率作为开发者可以注意几个点。1. 把稳定内容放在前面比如system prompt 固定规则工具说明长文档历史上下文用户本轮问题不要把每次变化的内容放在最前面。错误示例当前时间2026-xx-xx xx:xx 随机 requestIdabc123 system prompt 长文档用户问题这样每次最前面都不同会破坏前缀匹配。2. 不要频繁改 system prompt如果你的 system prompt 每次都动态拼接不同内容会影响缓存命中。可以把稳定规则和动态变量分开稳定规则放前面动态变量放后面3. 长文档问答要保持文档内容一致比如同一份合同、财报、论文多次提问时文档原文尽量不要变。如果你每次都对文档做不同切分、不同摘要、不同排序缓存命中率会下降。4. Few-shot 示例适合放前面如果你有固定示例示例1 示例2 示例3它们适合放在前面因为多次请求都能复用。十、它的局限性DeepSeek 官方文档也提到缓存系统是 best-effort 的不保证 100% 命中。另外缓存构建需要几秒钟。如果缓存不再被使用会自动清理通常在几小时到几天内清除。所以不能把它当成 Redis 那种由你完全控制生命周期的缓存。它更像是 DeepSeek 服务端自动做的推理优化。十一、最终理解我觉得可以这样总结传统缓存缓存结果 DeepSeek 缓存缓存上下文计算过程传统软件缓存解决的是不要重复查数据库不要重复调用接口不要重复计算结果DeepSeek 上下文缓存解决的是不要让模型重复处理同一段长上下文所以它不会让模型答案固定。它只是让模型在处理重复输入时更省钱、更快。对于开发者来说真正要做的是设计更稳定的 prompt 结构把重复内容放前面把变化内容放后面观察 prompt_cache_hit_tokens这才是用好 DeepSeek 缓存的关键。

C51中断服务程序地址分配机制解析

1. C51中断服务程序地址问题解析最近在调试一个基于C51的简单项目时，我发现了一个有趣的现象：中断服务程序(ISR)的地址分配似乎不符合预期。具体表现为，在map文件中ISR的实际代码位置与中断向量表地址不一致。这个问题看似简单，却…

2026/5/25 8:07:12 阅读更多

Spring boot 特性和自写Reids组件

从MVC到bootSpring Framework AOP、IOC/DI Spring 万能胶如何对配置进行轻量化思考，MVC项目如何完成一个代码编写创建一个项目结构（maven/gradle） spring的依赖，spring mvc 、servlet api的依赖 web.xml， Dispatcher…

2026/5/25 8:06:12 阅读更多

公共机构碳排放核算的政策背景以及我们应该如何做

公共机构碳排放核算的推进并非孤立的技术动作，而是源于国家碳达峰碳中和战略从宏观规划转向微观落地的刚性要求。可以说，这标志着公共机构正式从“能耗双控”时代迈入了“碳排放双控”的考核新阶段。一、政策背景：为何要抓紧核算？…

2026/5/25 8:06:12 阅读更多

ncmdumpGUI：三步解锁网易云音乐NCM加密文件的完整指南

ncmdumpGUI：三步解锁网易云音乐NCM加密文件的完整指南【免费下载链接】ncmdumpGUI C#版本网易云音乐ncm文件格式转换，Windows图形界面版本项目地址: https://gitcode.com/gh_mirrors/nc/ncmdumpGUI ncmdumpGUI 是一款专为Windows平台设计的开源…

2026/5/25 8:58:27 阅读更多

macOS微信防撤回神器：3分钟解锁消息永久保留能力

macOS微信防撤回神器：3分钟解锁消息永久保留能力【免费下载链接】WeChatIntercept 微信防撤回插件，一键安装，仅MAC可用，支持v3.7.0微信项目地址: https://gitcode.com/gh_mirrors/we/WeChatIntercept 还在为微信消息被撤…

2026/5/25 8:57:05 阅读更多

又一个被低估的AgentSkill 诞生了！

又一个神级 Agent Skill 诞生了！这两年，AI Agent 的能力进化得越来越快。从最开始只能聊天、写代码，到现在开始真正接管浏览器、操作网页、执行流程，很多人已经意识到：下一阶段的 AI，不只是“会思考”&…

2026/5/25 8:55:04 阅读更多

Hitboxer终极指南：专业级SOCD按键重映射工具解决游戏输入冲突

Hitboxer终极指南：专业级SOCD按键重映射工具解决游戏输入冲突【免费下载链接】socd Key remapper for epic gamers 项目地址: https://gitcode.com/gh_mirrors/so/socd 在竞技游戏和硬核平台游戏中，精确的键盘输入控制是决定胜负的关键因素。Hit…

2026/5/25 8:55:04 阅读更多

WarcraftHelper：魔兽争霸3终极兼容性增强插件完全指南

WarcraftHelper：魔兽争霸3终极兼容性增强插件完全指南【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper WarcraftHelper是一款专为《魔兽争霸…

2026/5/25 8:54:23 阅读更多

如何突破原神60FPS限制，让你的高配电脑真正发挥实力？

如何突破原神60FPS限制，让你的高配电脑真正发挥实力？ 【免费下载链接】genshin-fps-unlock unlocks the 60 fps cap 项目地址: https://gitcode.com/gh_mirrors/ge/genshin-fps-unlock 你是否曾经在探索提瓦特大陆时，明明拥有强大的显…

2026/5/25 8:53:22 阅读更多

Go语言SQLite轻量级数据库应用

Go语言SQLite轻量级数据库应用引言 SQLite是一款轻量级的嵌入式数据库，无需独立服务进程，非常适合单机应用、移动端应用和开发测试环境。Go语言通过database/sql包配合go-sqlite3驱动可以方便地操作SQLite数据库。本文将深入探讨Go语言中SQLite的使用技…

2026/5/25 0:01:30 阅读更多

【前端无障碍】屏幕阅读器兼容性：确保视障用户的良好体验

【前端无障碍】屏幕阅读器兼容性：确保视障用户的良好体验前言大家好，我是cannonmonster01！今天咱们来聊聊屏幕阅读器兼容性这个话题。想象一下，一个视障用户打开你的网站，通过屏幕阅读器来浏览内容。如果你的网站没有…

2026/5/25 0:02:31 阅读更多

2026年横评10款降AI率软件:只选真正管用的那一款！

随着AI写作工具的广泛应用，论文写作和内容创作效率得到了显著提升，许多学生和职场人士都开始依赖这些工具来完成繁重的文字任务。然而，随着各大高校、期刊平台对AIGC内容检测技术的不断升级，AI生成内容的痕迹越来越容易被识别。不…

2026/5/25 0:04:13 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/25 1:05:07 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/25 1:05:13 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/25 1:05:14 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/24 15:30:50 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/24 15:03:26 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/24 9:50:45 阅读更多

相关文章