Claude Prompt Caching 实战：把大模型 API 成本降低 90% 的工程技巧

发布时间：2026/6/10 23:23:22

Claude Prompt Caching 实战把大模型 API 成本降低 90% 的工程技巧一、问题场景“我做了一个 RAG 系统每次提问都要把几千 Token 的文档塞进 Prompt账单越来越吓人。”“我的 Agent 有一个 3000 Token 的 System Prompt每次调用都要重新计费一天下来成本爆炸。”“多轮对话越聊越长历史消息每轮都重新计算Token 消耗像滚雪球。”如果你也遇到这些问题那Prompt Caching提示词缓存就是你的救星。这是一个被很多开发者忽略但能实打实把成本降低 90%、延迟降低 85%的工程技巧。本文将讲清楚 Prompt Caching 的原理、使用方法、计费模型并给出可直接套用的实战代码。读完你会获得Prompt Caching 的工作原理和省钱逻辑Claude API 中如何正确设置缓存断点三个典型场景的完整实战代码计费规则详解和 5 个避坑要点二、原理分析2.1 为什么 Prompt 会重复计费大模型 API 是无状态的——每次请求模型都要把整个 Prompt 从头处理一遍重新计算注意力。第 1 次请求[3000 Token System Prompt] [问题A] → 计费 3000 第 2 次请求[3000 Token System Prompt] [问题B] → 又计费 3000 第 3 次请求[3000 Token System Prompt] [问题C] → 再计费 3000那个固定的 3000 Token System Prompt每次都在重复付费。这就是浪费的根源。2.2 Prompt Caching 如何省钱Prompt Caching 让模型把处理过的固定前缀缓存起来后续请求命中缓存时这部分几乎不收费、不重算。第 1 次请求[3000 Token] 写入缓存缓存写入费略贵 [问题A] 第 2 次请求[3000 Token] 命中缓存仅 10% 费用 [问题B] 第 3 次请求[3000 Token] 命中缓存仅 10% 费用 [问题C]核心收益成本缓存命中部分只收10%的费用降低 90%延迟命中缓存可减少最多85%的首 Token 延迟适用System Prompt、长文档、Few-shot 示例、对话历史等固定前缀2.3 计费模型详解Claude Prompt Caching 有三种 Token 价格类型价格相对基础输入说明缓存写入1.25 倍首次写入缓存比普通输入略贵缓存命中读取0.1 倍命中缓存仅 10% 费用普通输入1.0 倍未缓存的部分正常计费关键缓存写入虽然贵 25%但只要后续命中2 次以上就回本了。对于高频复用的固定前缀省钱效果惊人。缓存有效期TTL默认 5 分钟每次命中会刷新计时。也就是说只要 5 分钟内有请求缓存就一直有效。2.4 缓存的工作机制请求结构从前到后 ┌─────────────────────────────┐ │ Tools 定义 │ ┐ ├─────────────────────────────┤ │ 设置 cache_control 断点 │ System Prompt │ │ 这部分被缓存 ├─────────────────────────────┤ ┘ │ 对话历史 / 用户问题 │ 这部分每次变化不缓存 └─────────────────────────────┘核心规则缓存是前缀匹配的。缓存断点之前的内容只要完全一致就能命中。所以固定内容必须放在前面变化内容放在后面。三、实践验证完整代码3.1 基础用法缓存 System Prompt 基础场景缓存固定的 System Prompt 适用Agent、客服等有长 System Prompt 的场景 fromanthropicimportAnthropic clientAnthropic()# 一个较长的 System Prompt假设 2000 TokenLONG_SYSTEM_PROMPT你是一个专业的法律顾问助手... 这里是大量的规则、术语解释、回答规范假设 2000 Token ...defask(question:str):responseclient.messages.create(modelclaude-sonnet-4-6,max_tokens1024,system[{type:text,text:LONG_SYSTEM_PROMPT,cache_control:{type:ephemeral}# ← 关键标记缓存断点}],messages[{role:user,content:question}])# 查看缓存使用情况usageresponse.usageprint(f缓存写入:{usage.cache_creation_input_tokens})print(f缓存命中:{usage.cache_read_input_tokens})print(f普通输入:{usage.input_tokens})returnresponse.content[0].text# 第一次调用写入缓存ask(合同违约金的上限是多少)# 第二次调用命中缓存System Prompt 部分只收 10% 费用ask(租赁合同可以提前解除吗)3.2 RAG 场景缓存检索到的长文档 RAG 场景缓存大段检索文档适用基于同一批文档多次问答 fromanthropicimportAnthropic clientAnthropic()defrag_query_with_cache(documents:str,question:str):documents 是检索到的长文档question 是变化的问题responseclient.messages.create(modelclaude-sonnet-4-6,max_tokens1024,system[{type:text,text:你是知识库助手基于提供的资料回答问题。},{type:text,text:f参考资料\n{documents},cache_control:{type:ephemeral}# ← 缓存长文档}],messages[{role:user,content:question}])returnresponse.content[0].text# 同一批文档多次提问文档部分只在第一次付全费docs这里是检索到的 5000 Token 文档rag_query_with_cache(docs,产品的核心功能有哪些)rag_query_with_cache(docs,如何配置环境)# 命中缓存rag_query_with_cache(docs,常见错误怎么排查)# 命中缓存3.3 多轮对话缓存对话历史多轮对话场景随着对话变长缓存前面的历史适用聊天机器人、长对话 Agent fromanthropicimportAnthropic clientAnthropic()classCachedChat:def__init__(self,system_prompt:str):self.systemsystem_prompt self.messages[]defchat(self,user_input:str):self.messages.append({role:user,content:user_input})# 在倒数第二条消息上打缓存断点缓存之前的对话历史messagesself._add_cache_breakpoint()responseclient.messages.create(modelclaude-sonnet-4-6,max_tokens1024,system[{type:text,text:self.system,cache_control:{type:ephemeral}}],messagesmessages)replyresponse.content[0].text self.messages.append({role:assistant,content:reply})returnreplydef_add_cache_breakpoint(self):在最后一条用户消息前的内容打缓存断点msgs[dict(m)forminself.messages]iflen(msgs)2:# 给倒数第二条消息加缓存标记last_cachedmsgs[-2]ifisinstance(last_cached[content],str):last_cached[content][{type:text,text:last_cached[content],cache_control:{type:ephemeral}}]returnmsgs# 使用chatCachedChat(你是一个友好的助手。)print(chat.chat(我想学 Python))print(chat.chat(从哪里开始))# 缓存前面的对话print(chat.chat(推荐一些项目练手))# 继续命中缓存3.4 验证缓存是否生效通过response.usage的字段判断usageresponse.usage# cache_creation_input_tokens 0 → 这次写入了缓存# cache_read_input_tokens 0 → 这次命中了缓存省钱了# input_tokens → 未缓存的普通输入ifusage.cache_read_input_tokens0:savedusage.cache_read_input_tokens*0.9# 省了 90%print(f✅ 缓存命中约节省{saved:.0f}Token 的费用)四、避坑指南#坑现象解决方案1缓存内容放错位置缓存从不命中固定内容必须放前面变化内容放后面前缀匹配2缓存前缀有微小变化命中率低哪怕一个字符不同都无法命中确保前缀完全一致3缓存块太小没省到钱甚至更贵Claude 有最小缓存长度要求通常 1024 Token太短不缓存4忽略 5 分钟 TTL低频调用缓存失效高频场景才划算低频场景可考虑保活或不用缓存5只调用一次还用缓存写入费比省的多缓存写入贵 25%命中 2 次以上才回本6断点设置过多管理复杂、效果差一般 1-2 个断点足够最多支持 4 个计费回本公式缓存写入成本 N × 1.25首次不用缓存成本 N × 1.0 × 调用次数用缓存成本 N × 1.25 N × 0.1 × (调用次数 - 1) 当调用次数 ≥ 2 时用缓存就开始省钱调用次数越多省得越多趋近 90%五、总结Prompt Caching 是大模型工程化中性价比最高的优化手段之一核心要点原理缓存固定前缀命中只收 10% 费用用法在固定内容System Prompt、长文档、对话历史后打cache_control断点布局固定内容放前面变化内容放后面回本命中 2 次以上就省钱高频场景降本 90%最适合用 Prompt Caching 的场景有长 System Prompt 的 Agent / 客服基于同一批文档多次问答的 RAG多轮长对话的聊天机器人大量 Few-shot 示例的分类/抽取任务推荐实践路径先用response.usage分析你的请求找出重复计费的固定部分在固定前缀后加缓存断点验证cache_read_input_tokens是否 0优化 Prompt 结构把所有固定内容前移监控缓存命中率持续调优延伸阅读Anthropic: Prompt Caching 官方文档Anthropic: 降低成本的最佳实践省下来的钱就是赚到的钱。一个cache_control断点可能就帮你把月度账单砍掉一大半。

终极系统优化工具：3步解决Windows软件运行错误的完整方案

终极系统优化工具：3步解决Windows软件运行错误的完整方案【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist 你是否遇到过游戏打不开、专业软件闪退、或…

2026/6/10 23:22:21 阅读更多

HS2汉化补丁终极指南：5分钟告别语言障碍，畅享完整中文游戏体验

HS2汉化补丁终极指南：5分钟告别语言障碍，畅享完整中文游戏体验【免费下载链接】HS2-HF_Patch Automatically translate, uncensor and update HoneySelect2! 项目地址: https://gitcode.com/gh_mirrors/hs/HS2-HF_Patch 还在为Honey Select 2的日…

2026/6/10 23:22:21 阅读更多

PADS最新版保姆级图文安装教程

PADS是由Mentor Graphics公司研发的一款高端专业EDA电路板设计软件，也是工业领域、电子企业、硬件工程师首选的PCB设计工具之一。相较于其他设计软件，PADS凭借运行流畅、占用资源低、布线功能强大、高速信号处理精准、输出文件兼容性强等优势&#xff0c…

2026/6/10 23:21:40 阅读更多

Django学习教程（十）Django Admin后台管理模块

Django学习教程（十）Django Admin后台管理模块前言1.创建管理员账号2.启动项目3.注册文章模型4.管理文章数据5.优化后台显示6.添加搜索功能7.总结前言上一篇我们学习了Django Shell的基本使用，可以通过命令行操作文章数据。这一篇我们来学习D…

2026/6/10 23:58:19 阅读更多

丁虢|GEO全链路归因与ROI测算｜拆解转化全链数据，精算GEO投产比

摘要：传统SEO流量核算模型仅聚焦关键词排名、曝光、点击等表层流量数据，无法适配AI生成引擎的内容分发逻辑，存在归因错位、收益虚估、投入浪费三大核心问题。本文以GEO（AI生成引擎优化）实战落地为核心，自研…

2026/6/10 23:58:19 阅读更多

五星制评分折线图工具

1、简介用户对影视评分素来有 2 个需求：算小分、折线图。过去通常是“古法手作”确实麻烦。爬虫或自动化抓取都有合规风险，因此本工具的思路是：“众筹”、“拼好分”。即用户借助本工具快捷算小分、共享数据。热门影视的用户算分热情高…

2026/6/10 23:58:19 阅读更多

第13章：模型保存、导出与本地推理封装

1 项目背景业务场景算法团队训练好客服工单分类模型后，后端工程师小李需要把这个模型集成到 Spring Boot 服务中。小陈把模型文件打包发给了小李——一个文件夹，里面有 config.json、pytorch_model.bin、tokenizer_config.json、vocab.txt 等 7 个文件。小李打开一看就…

2026/6/10 23:57:17 阅读更多

MATLAB一键跳过标题行读取.dat数据并按列提取数值

本文还有配套的精品资源，点击获取简介：一套开箱即用的MATLAB脚本，专为处理实验采集类.dat文件设计——这类文件开头常带多行文本说明（如时间、设备参数、单位注释等），后续才是空格或制表符分隔的纯数值…

2026/6/10 23:57:17 阅读更多

第16章：基础篇综合实战：企业客服文本智能分派系统

1 项目背景业务场景经过前面 15 章的学习，团队已经掌握了 Transformers 的核心能力：Pipeline 快速推理、Tokenizer 文本预处理、文本分类/NER/QA 任务训练、Embedding 语义搜索、Trainer 训练框架、模型评估、推理封装和 FastAPI 部署。现在，技术经理要求将这些分散的能…

2026/6/10 23:56:36 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/10 0:41:57 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/10 0:41:54 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/10 0:32:14 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/10 9:56:42 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/10 9:56:39 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/10 9:56:34 阅读更多

相关文章

终极系统优化工具：3步解决Windows软件运行错误的完整方案

HS2汉化补丁终极指南：5分钟告别语言障碍，畅享完整中文游戏体验

PADS最新版保姆级图文安装教程

Django学习教程（十）Django Admin后台管理模块

丁虢|GEO全链路归因与ROI测算｜拆解转化全链数据，精算GEO投产比

五星制评分折线图工具

第13章：模型保存、导出与本地推理封装

MATLAB一键跳过标题行读取.dat数据并按列提取数值

第16章：基础篇综合实战：企业客服文本智能分派系统

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因