大模型 Token 缓存与语义去重：后端成本优化的工程实践

发布时间：2026/6/12 9:48:12

大模型 Token 缓存与语义去重后端成本优化的工程实践一、Token 消耗的温水煮青蛙大模型后端的隐性成本大模型应用后端面临一个严峻的成本问题相同或相似的请求被重复发送到 LLM每次都消耗完整的 Token。用户反复询问今天天气如何每次都消耗 500 Token 的 Prompt不同用户询问Python 如何读取 CSV语义相同但措辞不同无法命中缓存每次都重新调用 LLM。按 GPT-4 的定价计算一个日均 10 万次调用的应用如果 30% 的请求可以通过缓存命中每月可节省数千美元。Token 缓存与语义去重是大模型后端从能用走向经济可用的关键优化。二、Token 缓存的分层架构Token 缓存分为两层精确匹配缓存基于请求哈希和语义匹配缓存基于向量相似度。前者命中率高但覆盖窄后者覆盖宽但需要向量检索。flowchart TD A[用户请求] -- B{精确缓存命中} B --|命中| C[直接返回缓存结果] B --|未命中| D{语义缓存命中} D --|相似度阈值| E[返回缓存结果微调] D --|未命中| F[调用 LLM] F -- G[结果写入精确缓存] F -- H[请求向量写入语义缓存] G -- I[返回结果] E -- I C -- I精确缓存使用请求的完整 Prompt 哈希作为 Key适合完全相同的重复请求。语义缓存将 Prompt 转换为向量通过余弦相似度查找语义相近的历史请求适合措辞不同但意图相同的请求。三、工程化实现3.1 精确匹配缓存// exact_cache.go package cache import ( crypto/sha256 encoding/hex time ) type ExactCache struct { store map[string]*CacheEntry maxItems int ttl time.Duration } type CacheEntry struct { Response string CreatedAt time.Time HitCount int } func NewExactCache(maxItems int, ttl time.Duration) *ExactCache { return ExactCache{ store: make(map[string]*CacheEntry), maxItems: maxItems, ttl: ttl, } } // 生成请求的缓存 Key func (c *ExactCache) generateKey(prompt string, model string) string { h : sha256.New() h.Write([]byte(prompt | model)) return hex.EncodeToString(h.Sum(nil)) } // 查询缓存 func (c *ExactCache) Get(prompt string, model string) (string, bool) { key : c.generateKey(prompt, model) entry, exists : c.store[key] if !exists { return , false } // 检查 TTL if time.Since(entry.CreatedAt) c.ttl { delete(c.store, key) return , false } entry.HitCount return entry.Response, true } // 写入缓存 func (c *ExactCache) Set(prompt string, model string, response string) { // LRU 淘汰超过容量时删除最久未访问的条目 if len(c.store) c.maxItems { c.evictOldest() } key : c.generateKey(prompt, model) c.store[key] CacheEntry{ Response: response, CreatedAt: time.Now(), HitCount: 0, } } func (c *ExactCache) evictOldest() { var oldestKey string var oldestTime time.Time first : true for k, v : range c.store { if first || v.CreatedAt.Before(oldestTime) { oldestKey k oldestTime v.CreatedAt first false } } delete(c.store, oldestKey) }3.2 语义匹配缓存// semantic_cache.go package cache import ( context math sort ) type SemanticCache struct { embeddings []*CacheVector embedder Embedder threshold float64 maxItems int } type CacheVector struct { Prompt string Response string Embedding []float64 CreatedAt int64 } type Embedder interface { Embed(ctx context.Context, text string) ([]float64, error) } type SearchResult struct { Prompt string Response string Similarity float64 } func NewSemanticCache(embedder Embedder, threshold float64, maxItems int) *SemanticCache { return SemanticCache{ embeddings: make([]*CacheVector, 0), embedder: embedder, threshold: threshold, maxItems: maxItems, } } // 语义搜索找到与请求最相似的历史缓存 func (c *SemanticCache) Search(ctx context.Context, prompt string) (*SearchResult, error) { queryVec, err : c.embedder.Embed(ctx, prompt) if err ! nil { return nil, err } var results []SearchResult for _, entry : range c.embeddings { sim : cosineSimilarity(queryVec, entry.Embedding) if sim c.threshold { results append(results, SearchResult{ Prompt: entry.Prompt, Response: entry.Response, Similarity: sim, }) } } if len(results) 0 { return nil, nil } // 返回相似度最高的结果 sort.Slice(results, func(i, j int) bool { return results[i].Similarity results[j].Similarity }) return results[0], nil } // 写入语义缓存 func (c *SemanticCache) Set(ctx context.Context, prompt string, response string) error { vec, err : c.embedder.Embed(ctx, prompt) if err ! nil { return err } if len(c.embeddings) c.maxItems { c.embeddings c.embeddings[1:] } c.embeddings append(c.embeddings, CacheVector{ Prompt: prompt, Response: response, Embedding: vec, CreatedAt: 0, }) return nil } func cosineSimilarity(a, b []float64) float64 { var dot, normA, normB float64 for i : range a { dot a[i] * b[i] normA a[i] * a[i] normB b[i] * b[i] } if normA 0 || normB 0 { return 0 } return dot / (math.Sqrt(normA) * math.Sqrt(normB)) }3.3 两级缓存协调器// cache_coordinator.go package cache import ( context fmt ) type CacheCoordinator struct { exact *ExactCache semantic *SemanticCache } func NewCacheCoordinator( exact *ExactCache, semantic *SemanticCache, ) *CacheCoordinator { return CacheCoordinator{exact: exact, semantic: semantic} } // 查询缓存先精确后语义 func (cc *CacheCoordinator) Get( ctx context.Context, prompt string, model string, ) (string, bool, error) { // 第一层精确匹配 if resp, hit : cc.exact.Get(prompt, model); hit { return resp, true, nil } // 第二层语义匹配 result, err : cc.semantic.Search(ctx, prompt) if err ! nil { return , false, fmt.Errorf(语义搜索失败: %w, err) } if result ! nil { return result.Response, true, nil } return , false, nil } // 写入缓存同时写入两层 func (cc *CacheCoordinator) Set( ctx context.Context, prompt string, model string, response string, ) error { cc.exact.Set(prompt, model, response) if err : cc.semantic.Set(ctx, prompt, response); err ! nil { // 语义缓存写入失败不影响精确缓存 return fmt.Errorf(语义缓存写入失败: %w, err) } return nil }四、Token 缓存的 Trade-offs语义缓存的准确性风险余弦相似度 0.92 的两个请求语义可能接近但答案不同。Python 如何读取 CSV和Python 如何写入 CSV的向量相似度可能超过 0.9但答案完全不同。阈值设置过高会降低命中率过低会返回错误答案。建议对事实性问答使用 0.95 以上的阈值对开放式对话使用 0.90。Embedding 调用的额外成本语义缓存每次查询都需要一次 Embedding 调用虽然比 LLM 便宜约为 1/100但在高 QPS 场景下仍是一笔不小的开销。优化策略是对短 Prompt 50 字优先使用精确缓存只对长 Prompt 启用语义缓存。缓存一致性问题LLM 的回答具有随机性相同 Prompt 可能得到不同答案。缓存命中时返回的是历史答案可能不是最优答案。对于需要准确性的场景如代码生成建议在缓存结果中标注来自缓存并允许用户选择重新生成。缓存淘汰策略的影响LRU 淘汰可能删除高频但时间较早的缓存条目。对于大模型应用建议使用 LFU最不经常使用策略保留高频命中的条目。五、总结Token 缓存与语义去重是大模型后端成本优化的核心手段。精确缓存处理完全相同的请求语义缓存覆盖措辞不同但意图相同的请求。落地路线上建议先实现精确缓存实现简单、零额外成本积累数据后评估语义缓存的命中率再决定是否引入。关键原则缓存命中率比缓存覆盖率更重要宁可少命中也不要返回错误答案。

3分钟掌握ncmdump：终极NCM转换工具完整使用指南

3分钟掌握ncmdump：终极NCM转换工具完整使用指南【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 你是否还在为网易云音乐的NCM加密格式而烦恼？想要在车载音响、手机自带播放器或其他音乐软件中播放下载的音乐&…

2026/6/12 9:47:11 阅读更多

终极指南：用XUnity.AutoTranslator让任何Unity游戏瞬间变中文版

终极指南：用XUnity.AutoTranslator让任何Unity游戏瞬间变中文版【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 还在为外语游戏中的复杂界面和晦涩对话而烦恼吗？语言障碍是否让你错…

2026/6/12 9:44:08 阅读更多

Mythos：面向可验证叙事的AI世界状态建模技术

1. 项目概述：一次被刻意“锁住”的能力跃迁如果你最近关注大模型前沿动态，大概率已经看到过“TAI #200”这个编号——它不是某篇普通技术简报，而是The AI Alignment Newsletter（TAI）第200期的专题标题，聚焦…

2026/6/12 9:44:08 阅读更多

AI工具汇总

文章目录大模型llama3海洋方向通用模型Claude Opus（Anthropic）deepseek千问豆包（字节）kimiGPT-5.3-Codex（OpenAI）Gemini（Google） 专用模型视频seedance2.0（字节&#x…

2026/6/12 11:10:25 阅读更多

Claude Fable 5 基准测试：表现平平却攻克四个难题，作弊情况引关注！

AI 编码代理和工作站安全保障介绍点击链接可了解 AI 编码代理和工作站的安全保障。产品平台包括平台概述、开发者工具（免费）、语言与集成等内容。使用案例AI 治理涉及 AI 编码代理、AI 模型、MCP 与技能等。AI 代码涵盖 AI SAST、AI 代码审查、密钥检测等…

2026/6/12 11:10:05 阅读更多

天文图像自监督学习：astromorph工具包解析与应用

1. 天文图像分析的新范式：astromorph工具包解析在过去的十年里，天文观测技术经历了爆炸式增长。ALMA、JWST等新一代望远镜每天产生数以TB计的科学数据，其中包含着大量形态复杂的原行星盘、分子云和星系图像。传统的人工分类方法早已无法应对这…

2026/6/12 11:10:05 阅读更多

CCF-BDCI 2018汽车评论情感与主题分析第7名复现代码包（含ELMo训练+多模型stacking）

本文还有配套的精品资源，点击获取简介：这个代码包完整复现了CCF-BDCI 2018汽车用户评论主题识别与情感分析赛道第7名方案。支持从原始数据清洗、中文分词与编码（tokenization.py）、ELMo词向量本地训练（train_elmo.…

2026/6/12 11:10:05 阅读更多

Java编写的WITSML双版本客户端工程，兼容1.3.1和1.4.1协议

本文还有配套的精品资源，点击获取简介：一个开箱即用的Java WITSML客户端源码工程，同时支持1.3.1与1.4.1两个工业常用协议版本，适用于石油钻井数据交互场景。项目采用标准Maven结构，包含完整构建配置（po…

2026/6/12 11:09:04 阅读更多

开源思维导图终极指南：3分钟从新手到高手的完整教程

开源思维导图终极指南：3分钟从新手到高手的完整教程【免费下载链接】mind-map SimpleMindMap（思绪思维导图）：一个强大的思维导图。A powerful mind map. 项目地址: https://gitcode.com/GitHub_Trending/mi/mind-map 思维…

2026/6/12 11:09:04 阅读更多

3分钟搞定微信QQ消息防撤回：免费开源补丁终极指南

3分钟搞定微信QQ消息防撤回：免费开源补丁终极指南【免费下载链接】RevokeMsgPatcher :trollface: A hex editor for WeChat/QQ/TIM - PC版微信/QQ/TIM防撤回补丁（我已经看到了，撤回也没用了） 项目地址: https://gitcode.com/Gi…

2026/6/12 0:02:19 阅读更多

从零构建云边协同平台：KubeEdge边缘计算框架完全指南

从零构建云边协同平台：KubeEdge边缘计算框架完全指南【免费下载链接】kubeedge Kubernetes Native Edge Computing Framework (project under CNCF) 项目地址: https://gitcode.com/GitHub_Trending/ku/kubeedge 在数字化转型浪潮中，边缘计算正成…

2026/6/12 0:02:19 阅读更多

BetterJoy完全指南：解决Switch控制器在PC上的终极兼容方案

BetterJoy完全指南：解决Switch控制器在PC上的终极兼容方案【免费下载链接】BetterJoy Allows the Nintendo Switch Pro Controller, Joycons and SNES controller to be used with CEMU, Citra, Dolphin, Yuzu and as generic XInput 项目地址: https://gitcode.…

2026/6/12 0:02:40 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/12 1:13:40 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/12 1:13:42 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/12 1:13:40 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/12 10:26:09 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/12 10:00:48 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/12 10:00:17 阅读更多

相关文章

3分钟掌握ncmdump：终极NCM转换工具完整使用指南

终极指南：用XUnity.AutoTranslator让任何Unity游戏瞬间变中文版

Mythos：面向可验证叙事的AI世界状态建模技术

AI工具汇总

Claude Fable 5 基准测试：表现平平却攻克四个难题，作弊情况引关注！

天文图像自监督学习：astromorph工具包解析与应用

CCF-BDCI 2018汽车评论情感与主题分析第7名复现代码包（含ELMo训练+多模型stacking）

Java编写的WITSML双版本客户端工程，兼容1.3.1和1.4.1协议

开源思维导图终极指南：3分钟从新手到高手的完整教程

3分钟搞定微信QQ消息防撤回：免费开源补丁终极指南

从零构建云边协同平台：KubeEdge边缘计算框架完全指南

BetterJoy完全指南：解决Switch控制器在PC上的终极兼容方案

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因