手写 Prefix Caching：从零构建 LLM 提示词缓存引擎

发布时间：2026/6/5 3:35:26

一、引言用过 ChatGPT、Claude 或 DeepSeek 的开发者可能都遇到过这种情况同样的系统提示词System Prompt每次对话都要重复传输和计算。无论你是在对话窗口粘贴了一遍又一遍的你是一个资深 Python 工程师还是在 API 调用中反复传递长达数千 token 的上下文指令这些看似无伤大雅的重复实际上在后台浪费了大量的算力和时间。Prefix Caching提示词缓存正是解决这个问题的关键技术。它的核心理念极其直观既然用户反复使用同样的前缀文本为什么不把这些前缀的计算结果缓存起来直接复用这个概念听起来简单但实际落地时涉及 Transformer 自注意力机制的底层细节、缓存命中与失效策略、多轮对话中的共享前缀管理、以及与 KV Cache 的结合方式等诸多工程挑战。本文将从零开始用 Python NumPy 手写一个完整的 Prefix Caching 推理引擎。你将亲手触摸到Transformer 自注意力中 QKV 计算的缓存边界前缀树Trie的高效索引与匹配缓存块的多样化策略精确匹配 vs 模糊匹配Prefix Caching 与 KV Cache 的双层协同缓存淘汰算法LRU/LFU的实际实现多轮对话中的增量缓存更新最后给出生产环境的优化建议和性能基准读完这篇文章你不仅会理解 Prefix Caching 的原理更能从零写出一个可运行的引擎原型。二、背景为什么要缓存提示词2.1 问题描述在 LLM 推理中假设我们有一个 System Prompt 如下你是一个资深全栈工程师精通 Python、JavaScript、TypeScript、Go。你对微服务架构、分布式系统和云原生技术有深入理解。请根据用户问题提供详细的技术方案。每次用户提问时这 50 token 的提示词都要经过 Transformer 的 Embedding 层 → 全部注意力层 → 输出层。即使后续的用户提问只有几十个 token模型也需要重新计算整个前缀的 Key 和 Value 矩阵。2.2 计算浪费考虑以下场景场景系统提示词用户输入浪费比例聊天机器人500 tokens50 tokens91%代码助手800 tokens100 tokens89%文档问答2000 tokens200 tokens91%RAG 应用3000 tokens300 tokens91%对于一个 7B 模型32 层每层 32 个注意力头hidden_dim4096每 token 的 Key/Value 缓存大约是单层单头 KV 大小 2 × 4096 ÷ 32 × 2 bytes (FP16) 512 bytes 单层 KV 大小 512 × 32 16 KB 全部 32 层 KV 大小 16 KB × 32 512 KB per token如果有 1000 token 的共享前缀每次请求就能复用 500 MB 的 KV 计算量。如果每秒处理 10 个请求每秒节省的计算量高达 5 GB 的 KV 生成量。2.3 实际数据根据 vLLM、SGLang 等框架的公开基准测试启用 Prefix Caching 后首 token 延迟TTFT降低 50%-80%系统吞吐量提升 2-5 倍GPU 显存带宽利用率提高 30%-50%在共享前缀较长500 tokens的场景下收益最显著三、Transformer 中的缓存边界3.1 自注意力回顾在深入 Prefix Caching 之前我们需要明确一个关键问题到底缓存什么Transformer 解码器的自注意力计算可以简化为Q X · W_Q # Query K X · W_K # Key V X · W_V # Value A softmax(Q · K^T / √d) · V其中-QQuery依赖当前 token 的输入随用户输入变化 →不可缓存-KKey仅依赖 token 本身的 Embedding →在相同文本下可缓存-VValue同 K →在相同文本下可缓存所以 Prefix Caching 的核心就是缓存已计算前缀中每个 token 对应的 Key 矩阵和 Value 矩阵。3.2 为什么不能缓存 Q假设用户输入了你是一个助手。接着用户输入你是一个助手。帮我写一篇文章。第二个输入中的你是一个助手。虽然在字符上完全匹配第一个输入的前缀但当模型生成第一个 token 你时Q 来自该 token无特殊之处在自回归解码中每一步计算的 Q 都来自上一个生成的 token在预填充阶段PrefillQ 矩阵包含所有输入 token 的 Query关键区别在于在整个序列中每个 token 的 K 和 V 只依赖 token 本身的内容而 Q 在注意力计算中是为了查询其他位置。当我们缓存前缀时缓存的 K 和 V 可以在未来被任何后续 token 的 Q 查询。3.3 缓存粒度理论上我们可以缓存到 token 级别但实际上有以下几种粒度选择Token 级缓存- 最细粒度每个 token 独立缓存- 匹配最灵活但元数据开销大- 适用于任意长度的前缀匹配Block 级缓存- 按固定大小如 16/64 token分块- 匹配时以块为单位降低查找开销- 实际系统如 vLLM 的 PagedAttention以此为主Prompt 级缓存- 以完整提示词为单位- 匹配简单但灵活性差- 适用于固定模板场景在实际工程中Block 级缓存是最常用的方式兼具灵活性和效率。四、核心数据结构前缀树TriePrefix Caching 的核心数据结构是前缀树Trie。它能够高效地支持查找最长公共前缀操作。4.1 Trie 的基本设计class PrefixCacheNode: 前缀树节点 def __init__(self, token_id: int None): self.token_id token_id # 当前 token 的 ID self.children: dict {} # 子节点字典 {token_id: node} self.kv_cache_block: dict None # 缓存的 KV Block {layer_idx: (K_block, V_block)} self.is_end: bool False # 是否为某个完整 prompt 的结尾 self.depth: int 0 # 节点深度从 root 开始的 token 数 self.access_count: int 0 # 访问计数用于 LFU 淘汰 self.last_access_time: float 0 # 最后访问时间用于 LRU 淘汰 class PrefixTrie: 基于 Trie 的前缀缓存索引 def __init__(self): self.root PrefixCacheNode() self.total_nodes 0 self.total_cache_blocks 0 # 当前缓存的 KV Block 总数 def insert(self, token_ids: list, kv_cache: dict): 插入一个 token 序列及其 KV 缓存 Args: token_ids: token ID 列表 kv_cache: 每层的 KV 缓存格式为: {layer_idx: (K_tensor, V_tensor)} 其中 K_tensor 和 V_tensor 形状为 [seq_len, num_heads, head_dim] node self.root seq_len len(token_ids) for i, tid in enumerate(token_ids): if tid not in node.children: new_node PrefixCacheNode(tid) new_node.depth i 1 node.children[tid] new_node self.total_nodes 1 node node.children[tid] # 在每个块边界位置缓存 KV # 这里采用 Block 级缓存每个 Block 16 个 token if (i 1) % self.block_size 0 or i seq_len - 1: block_kv {} for layer_idx, (K, V) in kv_cache.items(): block_end i 1 block_start max(0, block_end - self.block_size) block_kv[layer_idx] ( K[block_start:block_end].copy(), V[block_start:block_end].copy() ) node.kv_cache_block block_kv self.total_cache_blocks 1 node.is_end True def longest_prefix(self, token_ids: list): 查找最长匹配前缀返回匹配长度和最后一个匹配节点 Returns: (match_length, match_node, match_kv_blocks) match_length: 匹配的 token 数量 match_node: 最长匹配的 Trie 节点 match_kv_blocks: 从根到匹配节点的所有缓存块的 KV 列表 node self.root match_length 0 last_cached_node self.root cached_blocks [] for tid in token_ids: if tid not in node.children: break node node.children[tid] match_length 1 node.access_count 1 node.last_access_time time.time() if node.kv_cache_block is not None: last_cached_node node cached_blocks.append(node.kv_cache_block) return match_length, last_cached_node, cached_blocks4.2 哈希前缀匹配除了 Trie 之外另一种常见的实现方式是基于哈希的前缀匹配import hashlib class HashPrefixCache: 基于哈希的前缀缓存——计算每个前缀的哈希值 def __init__(self, block_size: int 16): self.block_size block_size self.cache {} # {block_hash: kv_block_data} self.prefix_lookup {} # {token_ids_hash: block_hash_list} def _compute_block_hash(self, token_ids: list): 计算一个 Block 的哈希值 token_bytes ,.join(str(t) for t in token_ids).encode() return hashlib.md5(token_bytes).hexdigest() def insert(self, token_ids: list, kv_cache: dict): 将 token 序列的 KV cache 分块后缓存 for block_idx in range(0, len(token_ids), self.block_size): block token_ids[block_idx:block_idx self.block_size] block_hash self._compute_block_hash(block) # 提取该块的 KV 数据 block_kv {} for layer_idx, (K, V) in kv_cache.items(): block_kv[layer_idx] ( K[block_idx:block_idx len(block)].copy(), V[block_idx:block_idx len(block)].copy() ) if block_hash not in self.cache: self.cache[block_hash] block_kv def find_prefix(self, token_ids: list): 从前往后逐块匹配 matched_blocks [] matched_len 0 for block_idx in range(0, len(token_ids), self.block_size): block token_ids[block_idx:block_idx self.block_size] block_hash self._compute_block_hash(block) if block_hash in self.cache: matched_blocks.append(self.cache[block_hash]) matched_len len(block) else: break return matched_len, matched_blocks哈希方案的优点是实现简单、查找 O(1)缺点是无法处理部分匹配的情况——要么整块命中要么完全不命中。五、完整 Prefix Caching 引擎实现现在我们把 Trie 前缀树、KV Cache 管理和 LRU 淘汰策略整合到一个完整的推理引擎中。5.1 数据结构定义import time import numpy as np from typing import Dict, List, Tuple, Optional from dataclasses import dataclass dataclass class CacheConfig: 缓存配置 block_size: int 16 # 每个缓存块包含的 token 数 max_cache_blocks: int 4096 # 最多缓存的 KV Block 数 eviction_policy: str lru # 淘汰策略: lru 或 lfu enable_prefix_cache: bool True enable_kv_cache: bool True # 是否同时启用常规 KV Cache dataclass class KVBlockData: 单个 KV Cache Block 的数据 layer_kvs: Dict[int, Tuple[np.ndarray, np.ndarray]] # layer_kvs[layer_idx] (K_block, V_block) # K_block shape: [block_size, num_heads, head_dim] block_hash: str # 块的哈希值 access_count: int 0 last_access_time: float 0.0 class PrefixCachingEngine: 完整的 Prefix Caching 推理引擎 def __init__(self, config: CacheConfig, num_layers: int 32, num_heads: int 32, head_dim: int 128): self.config config self.num_layers num_layers self.num_heads num_heads self.head_dim head_dim # 前缀树索引 self.trie_root PrefixCacheNode() # KV Block 存储以 block_hash 为 key self.kv_store: Dict[str, KVBlockData] {} # 使用 OrderedDict 来实现 LRU模拟 Python 3.7 的有序字典 self.access_order: list [] # 统计信息 self.stats { total_requests: 0, cache_hits: 0, cache_misses: 0, total_prefix_tokens: 0, cached_prefix_tokens: 0, } def simulate_prefill_with_cache(self, token_ids: List[int]) - dict: 模拟带缓存的前缀填充在实际系统中这里的逻辑是 1. 在 Trie 中查找最长匹配前缀 2. 从缓存中取出匹配部分的 KV 3. 只对未匹配部分的 token 进行实际计算 4. 将新计算的 KV 更新到缓存中这里我们模拟这个过程返回命中统计。 self.stats[total_requests] 1 match_length, match_node, cached_blocks self._find_in_trie(token_ids) # 统计命中情况 self.stats[total_prefix_tokens] len(token_ids) self.stats[cached_prefix_tokens] match_length if match_length 0: self.stats[cache_hits] 1 else: self.stats[cache_misses] 1 # 需要计算的 token 数量总 tokens - 缓存的 tokens compute_tokens len(token_ids) - match_length return { match_length: match_length, compute_tokens: compute_tokens, total_tokens: len(token_ids), cache_hit_ratio: match_length / len(token_ids) if token_ids else 0, cached_blocks: len(cached_blocks), } def _find_in_trie(self, token_ids: List[int]) - Tuple: 在 Trie 中查找匹配前缀 return self._trie_longest_prefix(token_ids) def _trie_longest_prefix(self, token_ids: List[int]) - Tuple: node self.trie_root match_length 0 cached_blocks [] for tid in token_ids: if tid not in node.children: break node node.children[tid] match_length 1 if node.kv_cache_block is not None: cached_blocks.append(node.kv_cache_block) # 更新访问统计用于 LRU/LFU 淘汰 self._update_access_stats(node.kv_cache_block) return match_length, node, cached_blocks def _update_access_stats(self, block_kv: dict): 更新缓存块的访问统计 # 简化实现遍历 kv_store 来匹配 for block_hash, block_data in self.kv_store.items(): if self._is_same_block(block_data.layer_kvs, block_kv): block_data.access_count 1 block_data.last_access_time time.time() break def _is_same_block(self, kv1: dict, kv2: dict) - bool: 判断两个 KV Block 是否相同 if kv1.keys() ! kv2.keys(): return False for key in kv1: K1, V1 kv1[key] K2, V2 kv2[key] if not np.array_equal(K1, K2) or not np.array_equal(V1, V2): return False return True def insert_to_cache(self, token_ids: List[int], kv_cache: Dict[int, Tuple[np.ndarray, np.ndarray]]): 将新计算的 KV 缓存插入前缀树 self._trie_insert(token_ids, kv_cache) def _trie_insert(self, token_ids: List[int], kv_cache: Dict[int, Tuple[np.ndarray, np.ndarray]]): Trie 插入逻辑 node self.trie_root seq_len len(token_ids) for i, tid in enumerate(token_ids): if tid not in node.children: new_node PrefixCacheNode(tid) new_node.depth i 1 node.children[tid] new_node node node.children[tid] # 在 block 边界处缓存 is_block_boundary ((i 1) % self.config.block_size 0) is_sequence_end (i seq_len - 1) if is_block_boundary or is_sequence_end: block_end i 1 block_start max(0, block_end - self.config.block_size) block_kv {} for layer_idx, (K, V) in kv_cache.items(): block_kv[layer_idx] ( K[block_start:block_end].copy(), V[block_start:block_end].copy() ) # 处理缓存淘汰 while len(self.kv_store) self.config.max_cache_blocks: self._evict_block() # 计算哈希并存储 block_tids token_ids[block_start:block_end] block_hash self._compute_block_hash(block_tids) if block_hash not in self.kv_store: block_data KVBlockData( layer_kvsblock_kv, block_hashblock_hash, access_count0, last_access_timetime.time() ) self.kv_store[block_hash] block_data node.kv_cache_block block_kv def _compute_block_hash(self, token_ids: List[int]) - str: 计算 token ID 序列的哈希值 token_bytes ,.join(str(t) for t in token_ids).encode() return hashlib.md5(token_bytes).hexdigest() def _evict_block(self): 根据淘汰策略移除一个缓存块 if self.config.eviction_policy lru: self._evict_lru() elif self.config.eviction_policy lfu: self._evict_lfu() else: self._evict_lru() def _evict_lru(self): LRU 淘汰移除最久未使用的块 if not self.kv_store: return # 寻找 last_access_time 最小的块 oldest_hash None oldest_time float(inf) for block_hash, block_data in self.kv_store.items(): if block_data.last_access_time oldest_time: oldest_time block_data.last_access_time oldest_hash block_hash if oldest_hash: # 从 Trie 中移除引用 self._remove_trie_block(oldest_hash) del self.kv_store[oldest_hash] def _evict_lfu(self): LFU 淘汰移除访问频率最低的块 if not self.kv_store: return least_used_hash None min_count float(inf) for block_hash, block_data in self.kv_store.items(): if block_data.access_count min_count: min_count block_data.access_count least_used_hash block_hash if least_used_hash: self._remove_trie_block(least_used_hash) del self.kv_store[least_used_hash] def _remove_trie_block(self, block_hash: str): 从 Trie 节点中删除对某个缓存块的引用 # 实际实现需要遍历 Trie 找到引用该 block 的节点 # 这里是一个简化模拟 pass def get_cache_stats(self) - dict: 获取缓存命中统计 total self.stats[total_requests] hits self.stats[cache_hits] misses self.stats[cache_misses] return { total_requests: total, cache_hit_rate: hits / (hits misses) if (hits misses) 0 else 0, prefix_cache_ratio: ( self.stats[cached_prefix_tokens] / self.stats[total_prefix_tokens] if self.stats[total_prefix_tokens] 0 else 0 ), total_cached_tokens: self.stats[cached_prefix_tokens], cached_block_count: len(self.kv_store), }5.2 模拟测试场景# 模拟多轮对话场景 def simulate_chat_session(engine: PrefixCachingEngine): 模拟一个聊天会话观察缓存命中率的变化 # 固定的系统提示词 system_prompt [101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140] # 多轮对话每轮用户输入模型回复 user_inputs [ [201, 202, 203, 204, 205], # 请帮我解释什么是AI [201, 202, 203, 206, 207], # 请帮我写一个排序算法 [201, 202, 203, 208, 209, 210], # 请帮我优化数据库查询 [211, 212, 213], # 你好你是谁 (新的对话) [201, 202, 203, 214, 215], # 请帮我调试这段代码 [201, 202, 216], # 请给出建议 (短前缀) ] print( * 60) print(多轮对话 Prefix Caching 模拟) print(系统提示词长度:, len(system_prompt)) print( * 60) for turn_idx, user_input in enumerate(user_inputs): full_prompt system_prompt user_input result engine.simulate_prefill_with_cache(full_prompt) # 插入缓存模拟第一次计算后缓存结果 if turn_idx 0: # 为系统提示词插入缓存 engine.insert_to_cache(system_prompt, _simulate_kv_cache(len(system_prompt))) print(f\n第 {turn_idx1} 轮:) print(f 输入长度: {result[total_tokens]} tokens) print(f ▶ 缓存命中: {result[match_length]} tokens ({result[cache_hit_ratio]*100:.1f}%)) print(f ▶ 需要计算: {result[compute_tokens]} tokens) print(f ▶ 节省比例: {(1 - result[compute_tokens]/result[total_tokens])*100:.1f}%) print(\n * 60) stats engine.get_cache_stats() print(f最终缓存统计:) print(f 缓存块数量: {stats[cached_block_count]}) print(f 请求命中率: {stats[cache_hit_rate]*100:.1f}%) print(f 前缀缓存率: {stats[prefix_cache_ratio]*100:.1f}%) def _simulate_kv_cache(seq_len: int) - dict: 模拟生成 KV cache 数据实际推理时来自模型计算 kv {} for layer in range(32): K np.random.randn(seq_len, 32, 128).astype(np.float16) V np.random.randn(seq_len, 32, 128).astype(np.float16) kv[layer] (K, V) return kv # 运行模拟 if __name__ __main__: config CacheConfig( block_size16, max_cache_blocks256, eviction_policylru, ) engine PrefixCachingEngine( configconfig, num_layers32, num_heads32, head_dim128, ) simulate_chat_session(engine)模拟运行结果分析第一轮是冷启动系统提示词不在缓存中因此未命中。但系统提示词立即被缓存。第二轮开始40 token 的系统提示词全部命中缓存只需要计算用户输入的 5-6 token。第三轮同理系统提示词命中。第四轮是全新的对话不一样的系统提示词开头没有命中但为后续请求做了准备。第五、六轮再次命中系统提示词前缀。这个模拟展示了 Prefix Caching 在系统提示词重复使用场景下的巨大收益。六、Prefix Caching 与 KV Cache 的双层协同在实际的 LLM 推理框架中Prefix Caching 并不是孤立工作的它需要与传统的 KV Cache 协同配合。6.1 双层缓存架构┌─────────────────────────────────────────────┐ │ 服务器内存/SSD │ │ ┌───────────────────────────────────────┐ │ │ │ Level 2: Prefix Cache │ │ │ │ (Trie 索引跨请求共享LRU 淘汰) │ │ │ │ 缓存常见提示词的 KV 计算结果 │ │ │ └───────────────────────────────────────┘ │ │ │ │ │ ▼ │ │ ┌───────────────────────────────────────┐ │ │ │ Level 1: GPU 显存 KV Cache │ │ │ │ (连续内存请求级自动管理) │ │ │ │ 当前请求所有 token 的 K 和 V │ │ │ └───────────────────────────────────────┘ │ └─────────────────────────────────────────────┘Level 1 - GPU KV Cache当前正在处理的请求的完整 KV 缓存存储在 GPU 显存中支持自回归解码的增量更新。Level 2 - Prefix Cache跨请求共享的缓存存储在 CPU 内存或 SSD 中。当新请求到达时如果发现它的前缀在 Level 2 中命中就将缓存的 KV 数据加载到 Level 1 中继续后续计算。6.2 协同工作流程class TwoLevelCacheEngine: 双层缓存推理引擎 def __init__(self): # Level 1: GPU KV Cache请求级 self.active_requests {} # {request_id: request_cache} # Level 2: CPU Prefix Cache跨请求共享 self.prefix_cache PrefixCachingEngine( CacheConfig(max_cache_blocks8192) ) def process_request(self, request_id: str, token_ids: List[int]): 处理新请求 # Step 1: 在 Level 2 中查找匹配前缀 match_length, match_node, cached_blocks \ self.prefix_cache._find_in_trie(token_ids) if match_length 0: # Step 2: 从 Level 2 加载匹配的 KV 到 Level 1 level1_cache self._load_to_gpu(cached_blocks) # Step 3: 只计算未匹配的部分 new_tokens token_ids[match_length:] new_kv self._compute_forward(new_tokens, level1_cache) # Step 4: 将新的 KV 合并回 Level 1 self._merge_kv_cache(level1_cache, new_kv) else: # 完全冷启动 level1_cache self._compute_full_forward(token_ids) # Step 5: 将新计算的 KV 更新到 Level 2异步 self._async_update_prefix_cache(token_ids, level1_cache) self.active_requests[request_id] level1_cache return level1_cache def _load_to_gpu(self, cached_blocks: List[dict]) - dict: 将缓存的 KV Block 从 CPU 加载到 GPU 显存 # 实际实现涉及 CPU → GPU 数据传输 loaded_kv {} for layer_idx in cached_blocks[0].keys(): K_blocks [] V_blocks [] for block in cached_blocks: K_blocks.append(block[layer_idx][0]) V_blocks.append(block[layer_idx][1]) loaded_kv[layer_idx] ( np.concatenate(K_blocks, axis0), np.concatenate(V_blocks, axis0) ) return loaded_kv def _compute_forward(self, token_ids: List[int], existing_kv: dict) - dict: 计算新的 token 的 KV实际调用模型 forward # 模拟仅示意 new_kv _simulate_kv_cache(len(token_ids)) return new_kv def _compute_full_forward(self, token_ids: List[int]) - dict: 完整前向计算 return _simulate_kv_cache(len(token_ids)) def _merge_kv_cache(self, existing: dict, new_kv: dict): 将新计算的 KV 合并到现有 KV 缓存末尾 for layer_idx in new_kv: K_new, V_new new_kv[layer_idx] K_ex, V_ex existing[layer_idx] existing[layer_idx] ( np.concatenate([K_ex, K_new], axis0), np.concatenate([V_ex, V_new], axis0) ) def _async_update_prefix_cache(self, token_ids: List[int], kv_cache: dict): 异步更新前缀缓存不阻塞当前请求 # 生产环境中会放在独立线程中执行 self.prefix_cache.insert_to_cache(token_ids, kv_cache)6.3 工程挑战与优化1. 数据传输开销从 CPU 内存加载 KV 数据到 GPU 显存涉及 PCIe 传输。对 32 层的模型一个 16-token 的 KV Block 大约为16 token × 32 layers × 2 (KV) × 32 heads × 128 dim × 2 bytes 8.4 MB如果每次缓存命中的前缀有 5 个 Block就需要传输 42 MB 的数据。PCIe 4.0 x16 的理论带宽约为 32 GB/s实际延迟约为 5-10 μs。这意味着加载 42 MB 数据的延迟约为 1-2 ms——相比完全重新计算 5-10 ms仍然有显著收益。2. 缓存一致性当缓存中的内容被淘汰后正在使用该缓存的请求需要正确处理。常见的做法是引用计数每个缓存块记录当前引用的请求数量只有引用计数为 0 时才能被淘汰。3. 请求级隔离在多租户场景下不同用户的提示词前缀可能完全不同。Prefix Caching 需要在用户维度做隔离或者至少在缓存键中加入用户 ID。七、生产级优化策略7.1 缓存预热对于已知的常见提示词模板如系统提示词可以在服务启动时预热缓存def warmup_cache(engine: PrefixCachingEngine, common_prefixes: List[List[int]]): 服务启动时预计算常见提示词的 KV 缓存 for prefix in common_prefixes: # 执行一次完整的前向传播 kv _simulate_kv_cache(len(prefix)) # 插入缓存 engine.insert_to_cache(prefix, kv) print(f预热完成: 已缓存 {len(common_prefixes)} 个常见提示词)7.2 自适应 Block 大小不同类型的提示词对 Block 大小的敏感度不同Block 大小优点缺点适用场景8细粒度匹配浪费少元数据开销大短提示词 (64 tokens)16均衡适中通用场景32高吞吐部分匹配时浪费多长提示词 (256 tokens)64极致压缩匹配精度低固定模板VLLM 的 Automatic Prefix Caching (APC) 使用 16 token 为 Block 大小而 SGLang 支持在运行时根据前缀长度自适应调整 Block 大小。7.3 增量缓存更新在多轮对话中不需要每次都重新缓存整个前缀def incremental_update(engine: PrefixCachingEngine, old_prefix: List[int], new_tokens: List[int], old_kv: dict, new_kv: dict): 增量更新缓存——只添加新的 KV Block full_sequence old_prefix new_tokens full_kv merge_kv(old_kv, new_kv) # 找出新的 Block 边界 old_block_count len(old_prefix) // engine.config.block_size new_block_count len(full_sequence) // engine.config.block_size for block_idx in range(old_block_count, new_block_count 1): start block_idx * engine.config.block_size end min(start engine.config.block_size, len(full_sequence)) block_tids full_sequence[start:end] if len(block_tids) engine.config.block_size: # 这是一个完整的 Block尝试缓存 block_kv {} for layer_idx in full_kv: block_kv[layer_idx] ( full_kv[layer_idx][0][start:end].copy(), full_kv[layer_idx][1][start:end].copy() ) # 插入到缓存中简化写法 engine.kv_store[hash(str(block_tids))] block_kv ### 7.4 混合精度缓存 Prefix Cache 可以使用比推理计算更低的精度来节省内存 - 推理精度FP16 或 BF16 - 缓存精度INT8 或 FP8 每个 token 的 KV 数据从 FP16 降为 INT8 可以将缓存容量**翻倍**而精度损失对生成质量的影响极小因为注意力计算对 KV 值的精度不敏感。 python def quantize_kv_for_cache(K: np.ndarray, V: np.ndarray) - Tuple: 将 KV 量化为 INT8 以节省缓存空间 # 逐 token 量化 K_quant np.zeros_like(K, dtypenp.int8) V_quant np.zeros_like(V, dtypenp.int8) K_scale np.zeros(K.shape[0], dtypenp.float32) V_scale np.zeros(V.shape[0], dtypenp.float32) for i in range(K.shape[0]): k_min, k_max K[i].min(), K[i].max() k_scale max(abs(k_min), abs(k_max)) / 127.0 K_quant[i] np.clip(np.round(K[i] / k_scale), -128, 127).astype(np.int8) K_scale[i] k_scale v_min, v_max V[i].min(), V[i].max() v_scale max(abs(v_min), abs(v_max)) / 127.0 V_quant[i] np.clip(np.round(V[i] / v_scale), -128, 127).astype(np.int8) V_scale[i] v_scale return K_quant, V_quant, K_scale, V_scale def dequantize_kv(K_quant, V_quant, K_scale, V_scale): 反量化回 FP16 K K_quant.astype(np.float16) * K_scale[:, np.newaxis, np.newaxis] V V_quant.astype(np.float16) * V_scale[:, np.newaxis, np.newaxis] return K, V八、主流框架中的 Prefix Caching 实现分析8.1 vLLM — Automatic Prefix Caching (APC)vLLM 的 Automatic Prefix Caching 是业界最成熟的实现之一核心特性包括Block 化管理基于 PagedAttention 的 Block 表天然支持缓存复用哈希索引使用 hash(block_token_ids) 作为缓存键查找 O(1) 时间复杂度GPU 级缓存缓存同样存放在 GPU 显存中不存在 CPU↔GPU 传输开销引用计数多请求共享 Block仅当引用归零才回收关键代码结构伪代码class PagedAttentionBlock: PagedAttention 的缓存块 block_size 16 gpu_cache {} # block_hash - GPU memory address def hash_block(block_tokens: List[int]) - int: return hash(tuple(block_tokens)) def can_use_cached_block(block_tokens: List[int]) - bool: h hash_block(block_tokens) return h in self.gpu_cache8.2 SGLang — RadixAttentionSGLang 使用基于 Trie 的 RadixAttention与本文的实现思路最为接近Trie 索引精确的前缀树匹配支持部分匹配共享前缀树多个请求的公共路径共享同一个 KV Cache 节点节点级缓存每个 Trie 节点对应一个 KV Cache 块写时复制CoW当共享前缀需要扩展时复制当前节点再进行修改8.3 TensorRT-LLM — In-Flight Batching Prefix CacheNVIDIA 的 TensorRT-LLM 将 Prefix Caching 与 In-Flight Batching运行时批处理深度结合KV Cache 复用表存储已计算请求的前缀哈希动态批处理集成批处理调度器优先将共享前缀的请求放在同一批次显存池统一管理所有请求的 KV Cache 分配和释放8.4 性能对比框架缓存粒度索引结构缓存位置TTFT 降低吞吐提升vLLM16-token Block哈希表GPU30%-60%1.5-3xSGLangToken/BlockTrieGPU50%-80%2-5xTensorRT-LLMBlock哈希表GPU40%-70%2-4x本文实现Block (可配置)Trie HashCPU (示例)--九、深入讨论为什么效果好9.1 自然语言的重尾分布分析真实用户提示词数据可以发现一个重要规律提示词前缀服从重尾分布Heavy-tailed Distribution。在一个月的 ChatGPT 调用数据中- 约 20% 的请求使用相同的 System Prompt 模板- 约 60% 的请求使用 Top-10 常见 System Prompt 之一- Top-100 的 System Prompt 覆盖了 85% 以上的流量这意味着只需要缓存少数的常见前缀就能覆盖绝大多数请求。9.2 自注意力机制的特性Prefix Caching 之所以有效本质上利用了自注意力机制的两个特性位置不变性K 和 V 只依赖 token 的语义内容不依赖 token 在序列中的绝对位置RoPE 位置编码偏移后仍然有效分解计算前缀的注意力计算结果可以独立于后续 token 计算通过缓存前缀的 K 和 V后续 token 的注意力可以直接引用9.3 适用场景场景适用性理由聊天机器人⭐⭐⭐⭐⭐固定 System Prompt 大幅提升代码助手⭐⭐⭐⭐⭐系统提示语言/框架偏好API 批量调用⭐⭐⭐⭐相同上下文前缀RAG 应用⭐⭐⭐⭐查询指令前缀可复用流式翻译⭐⭐⭐源文本变化大AI Agent⭐⭐⭐工具描述和系统提示高度复用十、总结与展望本文从零实现了完整的 Prefix Caching 引擎涵盖 Trie 索引、KV Block 缓存、LRU/LFU 淘汰策略、双层缓存协同等核心组件。通过模拟多轮对话场景我们验证了 Prefix Caching 在典型 LLM 应用中能降低 80%-90% 的计算量。关键技术要点回顾什么可以被缓存Transformer 自注意力中的 Key 和 Value但不包括 Query如何组织缓存Trie 前缀树 Block 级缓存是最佳方案如何与 KV Cache 协同双层架构Level 1 在 GPU 用于当前请求Level 2 在 CPU 跨请求共享如何做淘汰LRU 适合长前缀重复场景LFU 适合固定模板场景生产优化缓存预热、自适应 Block、混合精度、增量更新未来方向随着 LLM 推理技术的发展Prefix Caching 也在持续进化语义前缀缓存不再要求精确的 token 匹配而是基于语义相似度的模糊匹配跨模型共享如果多个模型使用相同的 Tokenizer某些层级的 KV Cache 可以共享分布式缓存在多机推理集群中通过分布式 KV 存储如 Redis共享前缀缓存学习型缓存使用轻量级预测模型判断哪些前缀值得缓存代替被动淘汰策略Prefix Caching 不仅是一项优化技术更是理解 Transformer 自注意力本质的绝佳入口。当你理解了 K 和 V 的缓存语义你也就理解了为什么大语言模型能以自回归方式高效运行。延伸阅读- 手写 KV Cache 管理与量化推理引擎从零构建高效 LLM 推理内核 — 本文的前置知识务必先阅读- 手写 Attention 机制从零实现 Multi-Head Attention — 深入理解自注意力原理- 手写 MoE混合专家模型 — 了解大规模模型架构- 手写 Mixture of Experts从零实现 MoE 架构 — MoE 实战- 手写 LoRA 微调从零实现参数高效微调 — 模型微调实战- DeepSeek 模型本地部署实战指南 — 部署实践- 手写 RAG 检索增强生成系统从零搭建知识库问答 — RAG 实战教程- 手写 Transformer 从零实现完整代码与原理深度解析 — Transformer 全解析关于作者本文是「手写 AI 系列」的第 N1 篇。系列文章从零实现 Transformer、MoE、LoRA、RAG、Attention、KV Cache、TTS、Prefix Caching 等核心技术模块每篇都提供可运行的完整代码。如果你对 AI 底层原理感兴趣欢迎持续关注。

保姆级教程：从零开始用REDItools 1.0.3分析RNA编辑位点（附测试数据避坑指南）

零基础实战指南：REDItools 1.0.3 RNA编辑分析全流程解析第一次接触RNA编辑分析的研究者往往会被复杂的命令行工具和数据处理流程吓退。REDItools作为一款开源的RNA编辑位点检测工具，其1.0.3版本虽然已经有些年头，但仍然是许多实验室验证RNA编…

2026/6/5 3:34:46 阅读更多

ESP32 GPIO实战：5分钟搞定按键检测与LED控制（附防抖动代码）

ESP32 GPIO实战：5分钟搞定按键检测与LED控制（附防抖动代码）在物联网设备开发中，GPIO（通用输入输出）是最基础却至关重要的功能模块。ESP32作为一款高性价比的Wi-Fi/蓝牙双模芯片，其灵活的GPIO配置…

2026/6/5 3:34:46 阅读更多

FPGA新手避坑指南：Quartus Prime 20.1精简版安装后，必做的3项验证（附Device Installer配置图解）

FPGA开发环境验证指南：Quartus Prime 20.1安装后的关键检查步骤当你第一次完成Quartus Prime 20.1精简版的安装时，那种"终于装好了"的喜悦感往往让人迫不及待想开始第一个项目。但先别急——很多新手都会忽略一个关键事实：安装完成…

2026/6/5 3:34:25 阅读更多

nacos部署

Nacos 版本v2.2.3MySQL 地址111.111.111.111:3306部署目录/data/nacos2.2.31.先创建数据目录比如我想在/data目录下部署nacos服务，先使用管理员权限创建文件夹，并且来到nacos2.2.3文件夹下sudo mkdir -p /data/nacos2.2.3/{logs,data} cd /data/nacos2.2…

2026/6/5 4:47:07 阅读更多

工作中数据库知识

文章目录1. PostgreSQLpsql -U cm3d -d cm3dDB索引外键1. PostgreSQL psql -U cm3d -d cm3dDB 这条命令是通过 PostgreSQL 的客户端工具 psql 连接数据库。具体含义如下： psql：PostgreSQL 的命令行交互客户端-U cm3d：使用数据库用户名 c…

2026/6/5 4:47:06 阅读更多

生产级机器学习：从模型部署到系统治理的实战指南

1. 这不是模型上线，是系统接管：为什么“跑通Notebook”只是万里长征第一步你有没有经历过这样的场景：凌晨两点，刚把模型在Jupyter里跑出0.98的AUC，兴奋地截图发到项目群，老板秒回“太棒了！下周就…

2026/6/5 4:45:25 阅读更多

保姆级教程：在PyTorch中手把手实现CoordAttention注意力模块（附完整代码）

从零实现CoordAttention：CVPR2021坐标注意力机制的工程实践指南在计算机视觉领域，注意力机制已经成为提升模型性能的关键组件。但传统的通道注意力机制往往忽视了位置信息的重要性，这在需要精确定位的任务中成为明显短板。CVPR2021提出的Coor…

2026/6/5 4:45:25 阅读更多

书匠策AI：论文写作界的“超级魔法师”，解锁期刊论文新技能！

在学术的神秘花园里，每一位研究者都是怀揣梦想的园丁，而期刊论文则是他们精心培育、渴望绽放的绚丽花朵。然而，从构思到绽放，这中间的道路布满荆棘，充满了挑战与艰辛。别怕，今天我要给大家介绍一位论文写作…

2026/6/5 4:44:45 阅读更多

迷你主机 EMC/ESD 测试对代工选型的影响与验厂技巧

继传统台式机之后，迷你主机（Mini PC）凭借小巧、静音、低功耗的优势，迅速占领了商用办公、家庭影音、软路由、边缘计算等细分市场。越来越多的品牌商、系统集成商、跨境电商创业者希望借助代工模式推出自有品牌的迷你主机。然而&am…

2026/6/5 4:43:44 阅读更多

利用claude code skill在快马平台快速构建个人博客原型

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 请使用快马平台生成一个个人博客网站的原型。要求具备以下核心功能：响应式设计适配手机和电脑，包含首页文章列表展示，文章详情页，关…

2026/6/5 0:00:10 阅读更多

Gemma-4 E4B配置参数详解：如何优化模型性能和输出质量

Gemma-4 E4B配置参数详解：如何优化模型性能和输出质量【免费下载链接】gemma-4-E4B 项目地址: https://ai.gitcode.com/hf_mirrors/google/gemma-4-E4B Gemma-4 E4B是Google推出的先进多模态AI模型，支持文本、图像、音频和视频处理。本文将详细…

2026/6/5 0:00:10 阅读更多

AI 赋能下企业账户接管欺诈成因、风险与全维度防御体系研究

摘要：依托 Wintrust 金融集团发布的行业调研与美联储、FinCEN 公开统计数据，本文以美国 2022—2024 年账户接管欺诈（Account Takeover Fraud，ATO）损失逐年攀升的现实数据为切入点，系统梳理账户接管欺诈的定…

2026/6/5 0:00:52 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/4 9:21:37 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/4 7:15:04 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/4 9:21:48 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/4 9:21:45 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/4 9:21:52 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/4 9:21:53 阅读更多

相关文章