OpenVINO™ 2026.2 新功能：Intel GPU 上 LLM 推理的 INT4 KV Cache 压缩

发布时间：2026/6/4 1:30:55

作者Mingyu Kim、Byungil Min翻译武卓在长上下文场景下运行大语言模型是一项非常消耗内存的工作。即使模型权重已经被压缩到 INT4KV Cache 仍然会随着每一个新生成的 token以及每一次输入到模型中的 prompt 不断增长。OpenVINO™ 2026.2 为 GPU 插件引入了 INT4 KV Cache 压缩。与 INT8 KV Cache 相比它可以将相关内存开销大约再减少一半与 FP16 相比则可以减少约三分之二。本文将介绍 INT4 KV Cache 压缩是什么、如何开启以及在实际使用中可以期待怎样的效果。什么是 KV Cache为什么需要压缩每个 Transformer 模型在生成过程中都会维护一个 Key-Value Cache也就是 KV Cache。对于每一层 attention模型会把之前已经处理过的所有 token 对应的 key 和 value 保存下来这样在下一步生成时就不需要重复计算。这是自回归推理能够高效运行的关键机制但它也带来了额外的内存成本。KV Cache 的大小主要与以下因素有关上下文长度也就是 prompt 加上已经生成的 token 数量模型层数和 attention head 数量KV Cache 中张量的存储精度。以 Llama-3-8B 为例当上下文长度达到 17k token并且 KV Cache 使用 FP16 精度时仅 KV Cache 本身就会消耗超过 2GB 的设备内存。对于显存有限的独立 GPU或者使用系统 DDR 共享内存带宽的集成 GPU 来说这会直接限制实际可用的上下文长度。将 KV Cache 从 FP16 压缩到 INT8可以大约将内存占用减半。进一步压缩到 INT4则可以把内存占用降低到 FP16 基线的大约三分之一。OpenVINO 此前已经默认支持 INT8 KV Cache而在 2026.2 版本中INT4 KV Cache 也正式可用。默认行为OpenVINO™ GPU 插件默认会启用 INT8 KV Cache 压缩。也就是说如果你已经在 GPU 上使用 OpenVINO™ 进行 LLM 推理并且没有显式修改相关配置那么你的 KV Cache 很可能已经是 INT8 精度。INT4 KV Cache 需要手动开启。INT4 KV Cache 压缩意味着什么开启 INT4 KV Cache 后key 和 value 在写入内存之前会从 FP16 量化为 4-bit 整数。在 attention 计算过程中它们会被即时反量化。在内部实现中i4 和 u4 会被等价处理。GPU 插件会在编译阶段将 i4 归一化为 u4。类似地u8 会被归一化为 i8。因此在设置属性时你可以使用这两种写法中的任意一种实际行为是相同的。具体的量化方案取决于 attention 后端。Paged Attention 后端推荐使用在 Paged Attention 后端中key 使用 per-channel scale 进行量化也就是 BY_CHANNEL 模式group size 为 16value 使用 per-token scale 进行量化也就是 BY_TOKEN 模式。这种不对称设计是有意为之。对于 key 来说按通道量化通常可以更好地保持 attention 精度而对于 value 来说按 token 量化对于 decode 阶段的 kernel 更高效。SDPA 后端非 Paged Attention在 SDPA 后端中key 和 value 都使用 per-token scale 进行量化也就是 BY_TOKEN 模式。由于 SDPA 路径中的 key 不支持 per-channel 量化因此相比 Paged Attention 路径它更有可能带来一定的精度影响。如何开启 INT4 KV Cache下面是在 GenAI benchmark.py 工具中开启 INT4 KV Cache 的示例python tools/llm_bench/benchmark.py \-m /path/to/model \-d GPU \-lc {KV_CACHE_PRECISION: u4}如何切回更高精度如果你希望完全关闭 KV Cache 压缩例如为了获得最高精度或进行调试可以将 KV Cache 精度设置为 FP16python tools/llm_bench/benchmark.py \-m /path/to/model \-d GPU \-lc {KV_CACHE_PRECISION: f16}对内存占用的影响下面的数据使用 Llama-3-8B-Instruct 在 Intel® Arc™ B580 独立 GPU、Linux 系统上测得。不同模型权重精度下KV Cache 大小保持一致。注意实际效果可能会因系统配置、模型和使用方式不同而有所变化。8k-token prompt17k-token prompt可以看到在不同上下文长度下INT4 KV Cache 的节省比例基本一致相比 INT8 大约减少 44%相比 FP16 大约减少 68%。这里的节省比例并不是相对 INT8 精确减少 50%原因在于 group-wise 量化除了压缩后的数值本身还需要额外存储每个 group 对应的 scale 和 zero-point。它的实际意义是某些在 INT8 KV Cache 下会耗尽可用 DDR 或显存的上下文长度在 INT4 KV Cache 下可能就可以正常运行。对性能的影响在 IO 受限场景中内存节省也会转化为性能收益因为每生成一个 token 需要访问的数据量更少。以下结果使用 Llama-3.1-8B-Instruct在 Intel® Arc™ B390 集成 GPU 上测得系统 DDR 速率为 9600 MT/s。测试指标为每个输出 token 的 decode 延迟不包含 prefill 阶段。注意实际效果可能会因系统配置、模型和使用方式不同而有所变化。16k-token prompt34k-token prompt对精度的影响对 KV Cache 进行量化会在 attention 计算中引入更多量化误差。基于内部验证结果可以得到以下观察对于 INT4 权重模型例如使用 NNCF 4-bit 权重量化压缩后的模型INT4 KV Cache 压缩与 INT8 KV Cache 相比表现出相当的精度。原因是模型本身已经经过优化能够容忍一定程度的量化噪声而 KV Cache 引入的误差仍然处在可接受范围内。对于 INT8 权重或 FP16 权重模型INT4 KV Cache 可能会带来精度偏差具体程度取决于模型和任务。因此在生产环境中部署 INT4 KV Cache 之前建议先在目标任务上验证精度。一个简单的检查方式是选取具有代表性的 prompt 样本分别在 INT8 KV Cache 和 INT4 KV Cache 设置下运行模型并比较输出结果。已知限制不支持 cache rotation。将 KV Cache block eviction 与 RoPE 位置修正也就是 cache rotation 结合使用的 serving 配置与 INT4 KV Cache 不兼容。不过这不会影响典型的单会话推理或标准 prefix caching。仅支持 GPU 插件。INT4 KV Cache 压缩目前不适用于 CPU 插件。Key 的 by-channel 量化需要 Paged Attention 支持。能够带来更好精度的 key BY_CHANNEL 量化模式仅在使用 Paged Attention 后端时可用。当使用 SDPA 后端也就是非 Paged Attention 时key 会回退到 BY_TOKEN 量化这更可能引入精度偏差。因此使用 INT4 KV Cache 压缩时推荐优先采用 Paged Attention 推理流程。小结当你的应用受到内存限制同时又希望支持更长上下文时INT4 KV Cache 压缩会非常有价值。你可以通过设置 KV_CACHE_PRECISION: u4 来启用它并根据自己的实际 workload 验证性能和精度。为了获得更好的精度表现建议使用 Paged Attention 后端因为它支持 key 的 by-channel 量化。如果你使用的是 SDPA 后端需要注意 key 也会采用 per-token 量化因此更有可能带来精度影响。在正式部署之前请务必进行充分验证。

别再死记公式了！用‘凡人vs上帝’和‘局势vs增益’的比喻，5分钟搞懂DQN、DDQN和Dueling DQN

用“凡人vs上帝”和“局势vs增益”的比喻，5分钟搞懂DQN、DDQN和Dueling DQN想象一下，你正在玩一款全新的电子游戏，屏幕上闪烁着各种敌人和道具。作为一个新手，你可能会随机按几个按钮试试看哪个动作能带来更高的分数。这时候如果有…

2026/6/4 1:29:55 阅读更多

实战开发指南：基于快马AI从零构建支持代码高亮和公式渲染的typora级编辑器

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 构建一个功能完备、可用于生产环境的在线markdown编辑器应用。要求采用模块化的JavaScript代码结构。必须实现的功能有：1、强大的实时markdown解析与预览，支…

2026/6/4 1:29:54 阅读更多

别再浪费时间乱找数据分析自学视频？2026年过来人劝告选错真的亏大了，这6套视频总直接领

对比了2026年七款网红热门视频总结工具，结论很明确：听脑AI是综合体验最好的，最值得产品技术人入手。作为天天要开需求会、整理用户调研的老产品，我亲测两周，踩完所有坑给你们出这篇实测评。直达链接：http…

2026/6/4 1:29:14 阅读更多

大模型算力切分中的 GPU 虚拟化与软隔离：针对分布式训练网络瓶颈分析

大模型算力切分中的 GPU 虚拟化与软隔离：针对分布式训练网络瓶颈分析一、分布式训练的网络瓶颈与 GPU 虚拟化 1.1 训练通信的隔离需求多租户分布式训练中,网络带宽是共享资源。一个租户的 AllReduce 通信可能干扰另一个租户的训练性能: 多租户训练网络竞争:租户A: …

2026/6/4 2:14:10 阅读更多

机器人开机不知道自己在哪？我给它准备了 3 套 3D 重定位方案

项目已开源至Github，欢迎Star： GitHub - Ikunio/Lidar_nav2_ws: 基于 Livox MID-360 3D LiDAR 的 ROS 2 自主导航工作空间，集成 LIO 里程计、重定位、Nav2 导航，支持仿真与实机部署。 GitHub基于 Livox MID-360 3D LiDAR 的 ROS …

2026/6/4 2:13:29 阅读更多

别再只调参数了！Simulink模块的‘隐藏属性’：回调、注释与优先级实战指南

别再只调参数了！Simulink模块的‘隐藏属性’：回调、注释与优先级实战指南在Simulink建模的世界里，大多数工程师都熟悉如何调整模块参数、连线信号和运行仿真。但当你已经掌握了这些基础操作后，是否感觉模型的可维护性和自动化程度…

2026/6/4 2:12:29 阅读更多

面试潜规则⑦：简历到底能不能包装？那条红线究竟在哪？

专栏 | 这不是技巧，是你看不见的规则我见过两种典型的技术人，在写简历这件事上，走向了两个极端。第一种人，能力扎实，项目做过，系统扛过，故障也救过。可他的简历，读起来像一份“案情简…

2026/6/4 2:12:09 阅读更多

终极Limbus Company自动化助手：3分钟上手解放你的游戏时间

终极Limbus Company自动化助手：3分钟上手解放你的游戏时间【免费下载链接】AhabAssistantLimbusCompany AALC，PC端Limbus Company小助手。AALC，Limbus Company Assistant on PC 项目地址: https://gitcode.com/gh_mirrors/ah/AhabAssistan…

2026/6/4 2:11:28 阅读更多

16位原码乘法器 FPGA 设计 Verilog Vivado

名称：16位原码乘法器 FPGA 设计 Verilog Vivado软件：Vivado语言：Verilog功能介绍本项目实现的是一个基于 FPGA 的 16 位原码乘法器系统，工程语言为 Verilog，开发环境为 Vivado。设计通过矩阵键盘输入乘数和被乘数&…

2026/6/4 2:11:08 阅读更多

告别激活烦恼：IAR Embedded Workbench 许可证管理的最佳实践与合法替代方案探讨

IAR Embedded Workbench 许可证管理全指南与合规开发方案在嵌入式开发领域，IAR Embedded Workbench 以其高效的编译器和强大的调试功能著称，成为众多工程师的首选工具。然而，随着团队规模扩大和项目复杂度提升，许可证管理问题逐渐…

2026/6/4 0:03:11 阅读更多

赤铁矿磨矿过程运行优化控制软件系统【附程序】

✨ 长期致力于赤铁矿磨矿过程、磨矿粒度、数据驱动、运行优化控制、神经网络、案例推理、规则推理、软件系统研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1&…

2026/6/4 0:03:32 阅读更多

终极指南：如何使用Attu轻松管理你的Milvus向量数据库

终极指南：如何使用Attu轻松管理你的Milvus向量数据库【免费下载链接】attu The Best GUI for Milvus 项目地址: https://gitcode.com/gh_mirrors/at/attu Attu是一款专为Milvus向量数据库设计的现代化AI工作台管理工具，提供全面的可视化界面&…

2026/6/4 0:04:12 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/3 4:17:19 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/3 4:17:20 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/3 4:17:20 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/3 5:40:28 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/3 4:17:20 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/3 4:17:19 阅读更多

相关文章

别再死记公式了！用‘凡人vs上帝’和‘局势vs增益’的比喻，5分钟搞懂DQN、DDQN和Dueling DQN

实战开发指南：基于快马AI从零构建支持代码高亮和公式渲染的typora级编辑器

别再浪费时间乱找数据分析自学视频？2026年过来人劝告选错真的亏大了，这6套视频总直接领

大模型算力切分中的 GPU 虚拟化与软隔离：针对分布式训练网络瓶颈分析

机器人开机不知道自己在哪？我给它准备了 3 套 3D 重定位方案

别再只调参数了！Simulink模块的‘隐藏属性’：回调、注释与优先级实战指南

面试潜规则⑦：简历到底能不能包装？那条红线究竟在哪？

终极Limbus Company自动化助手：3分钟上手解放你的游戏时间

16位原码乘法器 FPGA 设计 Verilog Vivado

告别激活烦恼：IAR Embedded Workbench 许可证管理的最佳实践与合法替代方案探讨

赤铁矿磨矿过程运行优化控制软件系统【附程序】

终极指南：如何使用Attu轻松管理你的Milvus向量数据库

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因