【infra之路】Prefill具体在做什么

发布时间：2026/7/1 14:23:05

Prefill 就是把用户的 prompt 一次性处理完为 Decode 阶段准备好 KV Cache。具体做了什么用户发来一个 prompt比如请解释什么是AI假设 10 个 token。Prefill 阶段做的事和训练时的前向传播几乎一样输入: [请, 解释, 什么, 是, AI] ← 5 个 token 经过 Embedding → [5, 4096] 经过 32 层 Transformer每层: Self-Attention带 causal mask: Q, K, V 都是完整的 [5, 4096] 计算 5×5 的 attention 矩阵输出 [5, 4096] FFN: 输出 [5, 4096] 最终层输出: [5, 4096] LM Head: [5, 32000] ← 每个位置的 logits这一步的关键产出有两个1. 第一个生成 token——取最后一个位置的 logits采样得到第一个生成词比如 “AI” → “是”。2. KV Cache 初始化——每层计算出的 K 和 V 全部存入 KV CachePrefill 完成后KV Cache 状态: Layer 0: K [5, 4096] ← prompt 的 5 个 token 的 Key V [5, 4096] ← prompt 的 5 个 token 的 Value Layer 1: K [5, 4096] V [5, 4096] ... Layer 31: K [5, 4096] V [5, 4096]为什么叫 “Prefill”因为它在预先填充KV Cache。Decode 阶段每生成一个 token 都要和所有历史 token 做 Attention而 prompt 部分的 K 和 V 在 Prefill 阶段就已经算好了不需要再算。Prefill 之后进入 Decode: Decode Step 1: 输入是第 6 个 token 每层计算 Q_6, K_6, V_6 K_6, V_6 追加到 KV Cache现在 6 个 token Q_6 和 KV Cache 中所有 6 个 token 做 Attention → 生成第 7 个 token Decode Step 2: 输入第 7 个 token KV Cache 现在 7 个 token ...如果没有 PrefillDecode 的第一步就要从第 1 个 token 开始逐个生成prompt 的每个 token 也要做一次前向传播太慢了。Prefill 利用了 prompt 已知的特点一次性并行处理所有 prompt token效率远高于逐个 Decode。Prefill vs Decode 的计算特点Prefill: 输入长度: prompt_len比如 1000 个 token 计算: 大矩阵乘法1000×4096 × 4096×4096 特点: compute-boundGPU 计算单元满载时间: 和 prompt 长度成正比 Decode: 输入长度: 1 个 token 计算: 小向量乘矩阵1×4096 × 4096×4096 特点: memory-bound瓶颈在读取 KV Cache 的显存带宽时间: 和已生成的 token 总数成正比KV Cache 越来越大这就是为什么长 prompt 场景下比如 RAG 检索后拼接几千 token 的上下文Prefill 阶段会明显卡顿一下TTFT 高然后才开始逐 token 输出TPOT 相对稳定。简单说Prefill “读完题目”Decode “逐字写答案”。

如何在本地安全导出浏览器Cookie：Get cookies.txt LOCALLY终极指南

如何在本地安全导出浏览器Cookie：Get cookies.txt LOCALLY终极指南【免费下载链接】Get-cookies.txt-LOCALLY Get cookies.txt, NEVER send information outside. 项目地址: https://gitcode.com/gh_mirrors/ge/Get-cookies.txt-LOCALLY 在Web开发和测试工作…

2026/7/1 14:22:24 阅读更多

蔚蓝档案鼠标指针：5分钟免费美化Windows桌面，让你的光标变身动漫游戏角色

蔚蓝档案鼠标指针：5分钟免费美化Windows桌面，让你的光标变身动漫游戏角色【免费下载链接】BlueArchive-Cursors Custom mouse cursor theme based on the school RPG Blue Archive. 项目地址: https://gitcode.com/gh_mirrors/bl/BlueArchive-Cursors…

2026/7/1 14:22:24 阅读更多

代码测试核查技能

# 当 AI 写代码比测试还快时，我们造了一个「代码测试核查器」 Code Test Check — ClawHub > 开发越来越快，测试却还在原地踏步。与其让 QA 拿着 PRD 一行行去对代码，不如让 AI 先帮你把"实现度"查清楚。 ## 一、背景&#xff…

2026/7/1 14:22:03 阅读更多

计算机毕业设计之房屋中介服务平台

近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，房屋中介服务平台利用计算机网络实现信息化管理，使整个房屋中介服务的发展和服务水平有显著提升。本文拟采用Eclipse开发工…

2026/7/1 15:48:55 阅读更多

物联网设备安全连接：A5000加密芯片与PIC18微控制器的TLS实现

1. 为什么需要安全连接公共/私有云？在物联网和嵌入式系统开发中，设备与云端的安全通信已成为刚需。我最近用A5000加密芯片搭配PIC18LF27K40微控制器完成了一个农业监测项目，设备需要每5分钟上传一次土壤数据到私有云平台。初期直接使用HTTP明…

2026/7/1 15:48:35 阅读更多

AI产品形态五级分层架构体系

AI 产品形态 AI 能力的具体落地样子、产品类型、交付形式简单说：同样是人工智能能力，包装成不同的产品，给用户用的方式不一样，就是不同的 AI 形态。AI 形态不指技术，指产品长什么样、用户怎么用、解决什么问题、以什么…

2026/7/1 15:48:14 阅读更多

WinBtrfs深度解析：在Windows上无缝访问Linux Btrfs文件系统的终极方案

WinBtrfs深度解析：在Windows上无缝访问Linux Btrfs文件系统的终极方案【免费下载链接】btrfs WinBtrfs - an open-source btrfs driver for Windows 项目地址: https://gitcode.com/gh_mirrors/bt/btrfs 还在为Windows无法访问Linux Btrfs分区而烦恼吗&…

2026/7/1 15:47:13 阅读更多

WiFi热图工具终极指南：3步解决家庭网络信号盲区问题

WiFi热图工具终极指南：3步解决家庭网络信号盲区问题【免费下载链接】wifi-heat-mapper whm also known as wifi-heat-mapper is a Python library for benchmarking Wi-Fi networks and gather useful metrics that can be converted into meaningful easy-to-unde…

2026/7/1 15:46:52 阅读更多

3大策略精通Obsidian批量导出PDF：高效知识管理实战指南

3大策略精通Obsidian批量导出PDF：高效知识管理实战指南【免费下载链接】obsidian-better-export-pdf Obsidian PDF export enhancement plugin 项目地址: https://gitcode.com/gh_mirrors/ob/obsidian-better-export-pdf Obsidian作为现代知识管理工具&…

2026/7/1 15:46:32 阅读更多

FAE放射组学分析工具：医学影像特征探索的完整解决方案

FAE放射组学分析工具：医学影像特征探索的完整解决方案【免费下载链接】FAE FeAture Explorer 项目地址: https://gitcode.com/gh_mirrors/fae/FAE 你是否曾经面对海量医学影像数据感到无从下手？想要从CT、MRI等影像中提取有价值的定量特征&#…

2026/7/1 0:00:19 阅读更多

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南【免费下载链接】happy-llm 📚 从零开始构建大模型项目地址: https://gitcode.com/GitHub_Trending/ha/happy-llm 还在为大型多模态模型动辄数十亿参数、显存占用高而烦恼&…

2026/7/1 0:02:40 阅读更多

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址…

2026/7/1 0:02:40 阅读更多

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

6个月前的2025年12月，Boris Cherny 公开宣布自己卸载了 IDE。一时间，Vibe Coding 成了全行业最热的话题。6个月后，当我们回过头来拉一份真实账本，发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/7/1 0:09:07 阅读更多

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

📫 个人主页：深夜coding算法 📣 专栏系列：2026年华为最新OD机试题库详解 🔥 一次订阅，永久解锁 | 持续更新100篇 | 6语言全覆盖文章目录❄️前言：☀️一：题目描述🌙 题目…

2026/7/1 1:47:03 阅读更多

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

2026/7/1 1:47:03 阅读更多

FAE放射组学分析工具：医学影像特征探索的完整解决方案

2026/7/1 0:00:19 阅读更多

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南

2026/7/1 0:02:40 阅读更多

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南

2026/7/1 0:02:40 阅读更多

相关文章

如何在本地安全导出浏览器Cookie：Get cookies.txt LOCALLY终极指南

蔚蓝档案鼠标指针：5分钟免费美化Windows桌面，让你的光标变身动漫游戏角色

代码测试核查技能

计算机毕业设计之房屋中介服务平台

物联网设备安全连接：A5000加密芯片与PIC18微控制器的TLS实现

AI产品形态五级分层架构体系

WinBtrfs深度解析：在Windows上无缝访问Linux Btrfs文件系统的终极方案

WiFi热图工具终极指南：3步解决家庭网络信号盲区问题

3大策略精通Obsidian批量导出PDF：高效知识管理实战指南

FAE放射组学分析工具：医学影像特征探索的完整解决方案

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

FAE放射组学分析工具：医学影像特征探索的完整解决方案

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南