这项由清华大学、香港大学、爱丁堡大学、中国科学院大学、香港理工大学以及美团LongCat团队共同完成的研究以预印本形式发布于2026年5月论文编号为arXiv:2605.19660有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。当你在和手机里的AI助手聊天时有没有想过这家伙是怎么记住你之前说的话的答案是靠一种叫做KV缓存Key-Value Cache的东西。简单地说AI每处理你说的一句话就会在脑子里留下一份笔记记录关键信息以便回应后续问题时有据可查。然而当你和AI聊的话越来越多处理的图片、语音越来越复杂这份笔记就会变得越来越厚最终把AI的内存空间塞满——就像一个书桌越堆越满最后连动笔的地方都没了。这个问题并不是小麻烦。对于那些需要处理超长文章、视频、语音的高端AI应用来说KV缓存占用的内存会迅速占据GPU图形处理器也就是AI运算的核心硬件总容量的大头严重限制了AI能同时服务多少用户、能处理多长的内容。研究人员早就意识到压缩这份笔记是突破这一瓶颈的关键。现有的主流做法是量化也就是把原本用16位精度存储的数字压缩成更少位数的近似值——就好像把一张高清照片压缩成低分辨率的缩略图用更小的空间存储相似的信息。其中用2位整数INT2表示的极限压缩方案理论上可以把内存占用压缩到原来的八分之一但也会带来最严重的信息失真。如何在极限压缩的同时保住AI的智力水平一直是这个领域的难题。本文的研究团队经过细致分析发现了一个此前被忽视的根本性问题——他们将其命名为令牌范数失衡Token Norm ImbalanceTNI。正是这个隐藏的毛病让现有的极限压缩方案频频翻车。为了解决它研究团队提出了一套名为OScaROmni-Scaled Canalized Rotation全尺度通道化旋转的新方案不依赖复杂的辅助机制只用两个优雅的步骤就把问题搞定并在涵盖纯文字、图文混合、语音视频等多种AI模型的测试中刷新了当前最优成绩。一、先搞清楚AI的笔记本为什么越来越难压缩要理解OScaR解决了什么问题首先得知道AI的笔记本长什么样以及压缩它会遇到什么麻烦。在AI处理语言或图像、语音时每一层神经网络都会产生三种向量Query问询、Key键值和Value值。其中Key和Value会被存入缓存方便后续复用这就是KV缓存。Value向量的数值分布比较均匀压缩起来相对容易。但Key向量就不同了——它里面有一些异常通道某几个维度的数值会特别大像钉子一样突出来而其他维度则比较平整。这种现象在AI领域被称为通道级异常值channel-wise outliers。为了应对它研究者们发明了按通道量化的策略不是对整个Key矩阵用同一把尺子来压缩而是给每个通道单独设定一把尺子这样那几根钉子就不会让整体的尺子变得失灵。这种策略在4位甚至8位量化时效果相当好代表作是一个叫KIVI的框架。然而当量化精度压到2位时这把策略开始失效而且失效得很厉害。研究团队通过大量实验发现了问题所在按通道量化有一个隐含的前提假设那就是同一个通道里不同位置的令牌可以理解为每一个词、每一帧图片、每一段语音的代表单元的数值大小应该差不多。只要同一把尺子量下来大家都能被合理表示。但现实并非如此。研究团队仔细测量了Llama-2-7B、Llama-3.1-8B、Qwen3-8B等多个主流AI模型在处理文字时产生的Key向量以及处理图文混合内容的Qwen3-VL模型发现每一层神经网络里都有极少数几个特殊令牌其L2范数你可以把它理解为向量的整体能量大小也就是向量有多强壮远远低于其他普通令牌。这些弱小的令牌和旁边那些强壮的普通令牌被迫共享同一把量化尺子结果是灾难性的为了容纳那些强壮令牌尺子的量程被设得很大而弱小令牌就在这把粗糙的大尺子上几乎辨认不清了——这就是令牌范数失衡的危害。打个比方用同一把刻度精度为1厘米的尺子同时测量一栋200米高的大楼和一枚2厘米厚的硬币。大楼当然没问题但硬币只能粗略地标记为2厘米左右。量化就是这样共用一把尺子精细的信息不可避免地丢失了。研究团队不仅通过实验观测到了这个现象还从理论上证明了它的危害程度一个量化块的重建误差也就是压缩前后信息失真的程度从根本上取决于块内令牌范数的极差——也就是最强令牌和最弱令牌之间的差距越大误差越严重。这意味着TNI是按通道量化范式的结构性弱点而非偶然现象。更有趣的是这些弱小的低范数令牌是谁呢研究团队发现它们与一种叫做注意力汇点Attention Sink的现象高度重合。在标准的注意力机制中softmax函数要求注意力权重加起来必须等于1。当AI处理某些不需要特别关注任何内容的情况时它没有我不看任何人的选项只能把注意力强行分配给某些无关紧要的令牌比如句子开头的特殊标记符。这些被迫承接注意力的令牌就成了注意力汇点。为了让这种假装注意的行为不产生实质影响这些令牌的Value向量从而也包括Key和Query向量的范数都被压得很低——它们接收了所有注意力但几乎不传递任何信息。这些几乎沉默的令牌恰恰是TNI问题的源头。在多模态AI模型中TNI的表现更加复杂。除了注意力汇点型的低范数异常令牌还出现了另外两种情况不同模态文字、图片、语音的令牌之间范数差异巨大同一模态内部各自平稳但跨越模态边界时就会出现剧烈的范数跳变以及与低范数令牌相反某些令牌的范数极度高于平均水平形成高范数异常点。这些多样化的TNI模式让现有方法更加束手无策。研究团队还通过定量实验精确衡量了TNI的破坏力。以LLaVA视觉语言模型为例在2位量化下含有低范数异常令牌的量化块其误差比去除这些异常令牌后的块高出约35%。更惊人的是包含多种模态令牌的混合块比单一模态块的视觉部分量化误差高出约140%。这些数字清楚地说明了TNI并非小问题而是极限压缩时的主要误差来源。二、一个优雅的解法为什么不能直接缩放以及OScaR如何两步解决问题既然问题出在不同令牌之间范数差距太大最直接的想法是在量化之前先把所有令牌的范数都调整到差不多的水平不就解决了吗按照这个思路只需要计算每个令牌的范数然后除以它所有令牌的能量就变成1了——这叫做令牌级缩放。然而研究团队发现单独使用这个方法不仅没有帮助在很多情况下反而会让量化效果更差。原因出在一个他们命名为缩放诱导异常值效应Scaling-Induced Outlier Artifact的新问题上。考虑这样一个场景正常令牌的向量里某一两个维度通道的数值特别大其他维度都比较小——这就是前面说的通道级异常值。而那些低范数的异常令牌各个维度的数值都比较小分布均匀就像一块平坦的草地。现在如果把低范数令牌的范数放大到和正常令牌一样会发生什么低范数令牌的所有维度都被均匀地放大了它原本平坦的草地变成了各处等高的丘陵——但在那些正常令牌异常值通道也就是少数几个高峰之外的维度上低范数令牌被放大后的数值反而比正常令牌在这些维度上的数值大得多。这就制造了新的异常值低范数令牌在被放大之后成了按通道量化中新的麻烦制造者让原本平滑的通道量程被人为地拉宽量化精度更差了。直接缩放治标不治本甚至适得其反。OScaR的妙处在于它用两步走的组合拳彻底绕开了这个困境。第一步叫做通道化旋转Canalized Rotation。这一步用的是一种叫Hadamard变换的数学操作快速哈达玛变换FHT。你可以把它想象成搅拌机把原来向量里各个通道的信息彻底打散混合让原本集中在少数几个通道的异常能量均匀分布到所有通道上。经过这个操作Key向量里那几根突出的钉子就不见了各个通道的数值变得相对均匀。这一步操作的另一个好处是它作用于通道维度不改变令牌之间的范数差异。也就是说经过Hadamard变换后强壮令牌依然强壮弱小令牌依然弱小——TNI问题本身还在。但是由于通道分布变得均匀了此前令人担忧的缩放诱导异常值效应就消失了低范数令牌不再有某几个维度特别小、其他维度特别大的不均匀结构所以把它们统一放大时不会在任何特定通道上制造新的异常值。这就为第二步铺平了道路。第二步叫做全令牌缩放Omni-Token Scaling。在经过Hadamard变换的基础上计算每个令牌向量的L2范数然后将每个令牌除以自己的范数把所有令牌的能量统一到同一水平。由于第一步已经消除了通道分布的不均匀性这里的缩放操作不再会制造新的麻烦而是安全地解决了TNI问题——所有令牌现在都在同一个量级上共享量化尺子不再是问题。为了在解码时恢复原始信息缩放时使用的范数值会被单独存储起来作为标签解码时把存储的低精度向量乘回这个范数就还原了原始向量的大小关系。对于Query向量同样需要做Hadamard变换这样才能保证Query和Key做点积计算注意力得分的核心操作时数学关系保持正确——因为Hadamard变换是一个正交变换Query和Key同时做相同的旋转它们之间的相对关系不变。对于Value向量由于它没有通道级异常值问题处理方式更简单用一个离线的Hadamard变换也就是在模型运行之前一次性完成不需要每次推理都重算把Value向量的权重矩阵预先乘以Hadamard矩阵之后按令牌量化就好了不需要在线额外操作几乎零额外开销。研究团队通过消融实验也就是逐步去掉某个组件看效果如何变化的测试验证了这两步的缺一不可单独用Hadamard旋转通道均匀了但令牌范数失衡依然存在量化误差并没有显著降低单独用令牌缩放范数平衡了但缩放诱导异常值效应又把效果抵消了结果往往比什么都不做还差只有两步组合使用才能同时解决两个问题实现真正有效的极限压缩。三、工程上的精细打磨让理论变成真正快起来的代码提出一个好方法是一回事把它变成在真实硬件上快速运行的代码又是另一回事。OScaR的研究团队在系统实现层面也下了大功夫把理论上的优势转化为实实在在的速度提升。整个OScaR系统由三个精心设计的CUDA核心CUDA Kernel也就是在GPU上并行运行的程序构成分别承担不同的职责。第一个核心负责在线执行Hadamard变换和令牌缩放——对于Key向量融合完成Hadamard变换和范数归一化对于Query向量只做Hadamard变换。第二个核心高效完成Key和Value向量的量化打包。第三个核心则负责解码时的反量化、反缩放以及最终的注意力计算。团队在这里采用了两个关键的工程技巧来压低开销。其一Hadamard变换的计算复杂度是O(d log d)而传统的矩阵乘法复杂度是O(d?)。对于维度d128的头部向量这意味着Hadamard变换的运算量大约是矩阵乘法的十几分之一速度优势非常明显。而且团队借助了HadaCore这个专门为Tensor Core英伟达GPU上的矩阵运算加速单元优化的Hadamard实现利用了H??? H? ? H??的Kronecker分解结构进一步减少了标量运算压力。其二令牌缩放中需要计算平方和的倒数平方根即1/√Σx??团队选择使用GPU硬件加速的rsqrt指令而非先计算L2范数再求倒数——这在数学上等价但硬件层面速度更快延迟更低。消融实验证实rsqrt实现和直接计算L2范数的结果精度几乎相同却具有更优的硬件效率。在缓存组织上系统同时维护一个打包缓存存放2位量化后的Key和Value以及对应的量化参数和令牌范数标签和一个残差缓存存放最近128个尚未满足量化块大小的令牌以全精度FP16存储。每当残差缓存积累到128个令牌时就触发一次批量量化把这批令牌打包进压缩缓存。这种设计既保证了按通道量化在块大小上的需求又避免了频繁的小批量量化带来的开销。四、用数字说话OScaR在各类AI模型上的实际表现方案再优雅也要用测试结果来说话。研究团队在三类、共六个具有代表性的开源AI模型上进行了全面测试覆盖纯文字、图文多模态和全模态文字图片语音三种场景。在纯文字AI模型的测试中团队使用了LongBench-E基准一个专门测试长文本理解能力的基准涵盖问答、摘要、代码补全等多类任务以及大海捞针Needle-in-a-HaystackNIAH测试把一段关键信息藏在长达数万字的文章里看AI能否找到它。在LongBench-E上OScaR在Llama-3.1-8B模型上取得了41.75%的平均得分比排名第二的方法OTT40.74%高出1.01个百分点而16位全精度基准是41.70%——OScaR的2位量化版本居然比16位基准还要略高在Qwen3-8B上OScaR得分48.74%16位基准是49.56%仅差1.7%远比其他量化方法更接近基准。在大海捞针测试中OScaR的检索准确率达到了96.5%不仅超越所有量化竞争对手第二名TurboQuant是92.7%甚至略微超过了不做任何压缩的16位基准96.0%。这说明OScaR的量化操作不仅没有损害长文本中的信息检索能力反而可能略微改善了某些情况下的表现。在图文多模态模型测试中团队使用了OCRBench测试AI识别图片中文字的能力和DocVQA测试AI理解文档图片并回答问题的能力。在OCRBench上OScaR在三个测试模型上均居量化方法首位LLaVA-v1.6-vicuna-7B得519分16位基准536分Qwen3-VL-8B得856分16位基准858分差距仅0.2个百分点Qwen3-VL-4B得838分比第二名高2.5个百分点。在DocVQA上OScaR同样在所有三个模型上领先Qwen3-VL-8B甚至以95.01%微超16位基准94.93%。全模态模型的测试针对Qwen3-Omni-30B在MMAU-Pro基准评估语音理解和指令跟随能力上进行。OScaR在开放式问答、高质量回答比例和音频指令跟随三项指标上均居量化方法首位且在所有三项上都超过了16位基准分别超出1.2、2.0和1.1个百分点。在效率方面研究团队在单张H20 GPU一款高端AI计算专用显卡上测试了Qwen3-8B模型的推理速度。与16位精度的FlashDecoding-v2基准目前主流的高效推理实现相比在128K超长文本场景下OScaR的解码速度提升了3.0倍从92.9毫秒/令牌降至30.9毫秒/令牌。在批处理场景下同时处理48个对话OScaR将内存占用压缩至原来的五分之一从28.3GB降至5.3GB推理吞吐量单位时间处理的令牌数量提升了4.1倍从331令牌/秒提升至1354令牌/秒。研究团队还与同类竞品TurboQuant做了详细的延迟对比。在短文本场景1K令牌下TurboQuant因为底层实现方式使用llama.cpp框架的差异延迟反而比OScaR低7.8毫秒对25.1毫秒但这优势随着文本变长急剧消失。在16K令牌时OScaR已经反超到128K令牌时TurboQuant的延迟达到72.9毫秒OScaR仅需30.9毫秒差距超过一倍。更重要的是TurboQuant使用的是2.5位的混合精度量化部分通道用3位其余用2位而OScaR全程只用2位存储效率更高且精度更好。从理论复杂度分析来看在d4096、头维度128、上下文长度10000的典型配置下OScaR每步解码的理论运算量约为1.23亿单位虽然高于KIVI约0.82亿但远低于TurboQuant约2.48亿。OScaR完全不需要查表操作TurboQuant需要大量查表这对GPU执行效率非常友好因为GPU的算术流水线远比内存随机访问高效。这种理论上适度开销换取最高精度的位置就是OScaR在精度-效率帕累托前沿上占据的独特位置比最便宜的KIVI准确得多比最复杂的TurboQuant便宜得多同时精度还更高。五、研究边界与未来还有哪些问题有待解决任何研究都有它的局限性研究团队也坦诚地指出了OScaR的边界。由于现代语言模型普遍使用RoPE旋转位置编码机制Key向量在进入注意力计算前会被动态施加位置相关的旋转这使得Hadamard变换无法像处理Value那样提前离线完成——它必须在每次生成新令牌时在线计算。这虽然已经通过HadaCore等工程优化大幅降低了开销但相比完全没有旋转操作的KIVI依然存在额外计算成本。未来如果能找到在RoPE存在条件下也能离线融合旋转的方案整体效率还能进一步提升。此外当前的实验主要集中在具有标准LLM大型语言模型骨干网络的模型上。研究团队认为OScaR的框架理论上也适用于其他需要KV缓存的自回归推理任务比如流式视觉几何模型、视觉自回归模型、带有KV缓存的扩散型语言模型等。但这些模型的架构与标准LLM有较大差异且在这些领域中KV缓存压缩本身也是新兴课题相关实验还有待未来展开。说到底OScaR做的事情其实非常符合奥卡姆剃刀原则——同名论文的名称来源正是如此。这个中世纪哲学原则主张在解释问题时不必要地复杂的假设应该被剃掉最简单能解决问题的方案才是最好的方案。对付KV缓存量化中令牌范数失衡这个核心问题研究团队没有堆叠复杂的误差校正机制、没有引入额外的查找表、没有依赖高精度残差存储只是对症下药地用Hadamard旋转消灭通道不均匀性再用令牌缩放消灭范数失衡两步走干净利落。这对于正在使用或即将使用大型AI模型的普通用户来说意味着未来他们在手机、平板或云端与AI交互时即便AI处理的是超长对话、高清图片或长篇音频系统也能更流畅、更省电、服务更多人——而AI本身的聪明程度几乎不受影响。归根结底好的压缩不是把AI变笨而是让AI在更小的空间里依然聪明地工作。感兴趣的读者可以通过arXiv编号2605.19660找到这篇论文的完整版本其中包含了所有模型的详细实验数据、理论推导、CUDA实现细节以及丰富的可视化结果是目前在多模态AI模型KV缓存极限量化这一方向上少有的系统性研究。QAQ1KV缓存量化为什么在2位压缩时特别容易失效其他量化方法有哪些局限A2位量化只有4个可区分的数值级别容错空间极小任何数值分布的不均匀都会造成严重失真。现有方法如KIVI在应对通道异常值时表现尚可但忽视了令牌范数失衡问题导致不同令牌被迫共享同一粗糙的量化尺子弱小令牌的信息几乎丢失。TurboQuant等方法虽加入了残差纠错但引入了查表操作和复杂流水线在长文本场景下速度反而下降明显。OScaR通过从根本上消除范数失衡绕开了这些问题。Q2OScaR的Hadamard变换会不会破坏注意力机制的正确性A不会。Hadamard变换是一种正交变换数学上类似旋转不改变向量之间的内积点积关系。注意力得分的计算依赖Query和Key的内积只要Query和Key同时做相同的Hadamard变换两者内积的结果与变换前完全一致。OScaR正是这样设计的Key做Hadamard旋转后量化存储Query在计算注意力时也先做同样的旋转数学上等价于完全没有做旋转正确性得到严格保证。Q3令牌范数失衡问题是否只存在于文字类AI模型中A不是。研究团队在图文混合模型和全模态模型上都观察到了令牌范数失衡现象而且多模态模型中的表现更为复杂。除了与注意力汇点相关的低范数异常令牌多模态模型还存在跨模态范数跳变文字令牌和图片令牌的范数水平差异显著以及某些特殊层中的高范数异常令牌。这些多样化的失衡模式使多模态场景下的量化更为困难OScaR的全令牌缩放方案能够统一处理这些不同的失衡模式在多模态测试中同样取得了领先成绩。
清华大学、香港大学等顶尖高校联手破解AI内存瓶颈
发布时间:2026/5/27 23:32:25
这项由清华大学、香港大学、爱丁堡大学、中国科学院大学、香港理工大学以及美团LongCat团队共同完成的研究以预印本形式发布于2026年5月论文编号为arXiv:2605.19660有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。当你在和手机里的AI助手聊天时有没有想过这家伙是怎么记住你之前说的话的答案是靠一种叫做KV缓存Key-Value Cache的东西。简单地说AI每处理你说的一句话就会在脑子里留下一份笔记记录关键信息以便回应后续问题时有据可查。然而当你和AI聊的话越来越多处理的图片、语音越来越复杂这份笔记就会变得越来越厚最终把AI的内存空间塞满——就像一个书桌越堆越满最后连动笔的地方都没了。这个问题并不是小麻烦。对于那些需要处理超长文章、视频、语音的高端AI应用来说KV缓存占用的内存会迅速占据GPU图形处理器也就是AI运算的核心硬件总容量的大头严重限制了AI能同时服务多少用户、能处理多长的内容。研究人员早就意识到压缩这份笔记是突破这一瓶颈的关键。现有的主流做法是量化也就是把原本用16位精度存储的数字压缩成更少位数的近似值——就好像把一张高清照片压缩成低分辨率的缩略图用更小的空间存储相似的信息。其中用2位整数INT2表示的极限压缩方案理论上可以把内存占用压缩到原来的八分之一但也会带来最严重的信息失真。如何在极限压缩的同时保住AI的智力水平一直是这个领域的难题。本文的研究团队经过细致分析发现了一个此前被忽视的根本性问题——他们将其命名为令牌范数失衡Token Norm ImbalanceTNI。正是这个隐藏的毛病让现有的极限压缩方案频频翻车。为了解决它研究团队提出了一套名为OScaROmni-Scaled Canalized Rotation全尺度通道化旋转的新方案不依赖复杂的辅助机制只用两个优雅的步骤就把问题搞定并在涵盖纯文字、图文混合、语音视频等多种AI模型的测试中刷新了当前最优成绩。一、先搞清楚AI的笔记本为什么越来越难压缩要理解OScaR解决了什么问题首先得知道AI的笔记本长什么样以及压缩它会遇到什么麻烦。在AI处理语言或图像、语音时每一层神经网络都会产生三种向量Query问询、Key键值和Value值。其中Key和Value会被存入缓存方便后续复用这就是KV缓存。Value向量的数值分布比较均匀压缩起来相对容易。但Key向量就不同了——它里面有一些异常通道某几个维度的数值会特别大像钉子一样突出来而其他维度则比较平整。这种现象在AI领域被称为通道级异常值channel-wise outliers。为了应对它研究者们发明了按通道量化的策略不是对整个Key矩阵用同一把尺子来压缩而是给每个通道单独设定一把尺子这样那几根钉子就不会让整体的尺子变得失灵。这种策略在4位甚至8位量化时效果相当好代表作是一个叫KIVI的框架。然而当量化精度压到2位时这把策略开始失效而且失效得很厉害。研究团队通过大量实验发现了问题所在按通道量化有一个隐含的前提假设那就是同一个通道里不同位置的令牌可以理解为每一个词、每一帧图片、每一段语音的代表单元的数值大小应该差不多。只要同一把尺子量下来大家都能被合理表示。但现实并非如此。研究团队仔细测量了Llama-2-7B、Llama-3.1-8B、Qwen3-8B等多个主流AI模型在处理文字时产生的Key向量以及处理图文混合内容的Qwen3-VL模型发现每一层神经网络里都有极少数几个特殊令牌其L2范数你可以把它理解为向量的整体能量大小也就是向量有多强壮远远低于其他普通令牌。这些弱小的令牌和旁边那些强壮的普通令牌被迫共享同一把量化尺子结果是灾难性的为了容纳那些强壮令牌尺子的量程被设得很大而弱小令牌就在这把粗糙的大尺子上几乎辨认不清了——这就是令牌范数失衡的危害。打个比方用同一把刻度精度为1厘米的尺子同时测量一栋200米高的大楼和一枚2厘米厚的硬币。大楼当然没问题但硬币只能粗略地标记为2厘米左右。量化就是这样共用一把尺子精细的信息不可避免地丢失了。研究团队不仅通过实验观测到了这个现象还从理论上证明了它的危害程度一个量化块的重建误差也就是压缩前后信息失真的程度从根本上取决于块内令牌范数的极差——也就是最强令牌和最弱令牌之间的差距越大误差越严重。这意味着TNI是按通道量化范式的结构性弱点而非偶然现象。更有趣的是这些弱小的低范数令牌是谁呢研究团队发现它们与一种叫做注意力汇点Attention Sink的现象高度重合。在标准的注意力机制中softmax函数要求注意力权重加起来必须等于1。当AI处理某些不需要特别关注任何内容的情况时它没有我不看任何人的选项只能把注意力强行分配给某些无关紧要的令牌比如句子开头的特殊标记符。这些被迫承接注意力的令牌就成了注意力汇点。为了让这种假装注意的行为不产生实质影响这些令牌的Value向量从而也包括Key和Query向量的范数都被压得很低——它们接收了所有注意力但几乎不传递任何信息。这些几乎沉默的令牌恰恰是TNI问题的源头。在多模态AI模型中TNI的表现更加复杂。除了注意力汇点型的低范数异常令牌还出现了另外两种情况不同模态文字、图片、语音的令牌之间范数差异巨大同一模态内部各自平稳但跨越模态边界时就会出现剧烈的范数跳变以及与低范数令牌相反某些令牌的范数极度高于平均水平形成高范数异常点。这些多样化的TNI模式让现有方法更加束手无策。研究团队还通过定量实验精确衡量了TNI的破坏力。以LLaVA视觉语言模型为例在2位量化下含有低范数异常令牌的量化块其误差比去除这些异常令牌后的块高出约35%。更惊人的是包含多种模态令牌的混合块比单一模态块的视觉部分量化误差高出约140%。这些数字清楚地说明了TNI并非小问题而是极限压缩时的主要误差来源。二、一个优雅的解法为什么不能直接缩放以及OScaR如何两步解决问题既然问题出在不同令牌之间范数差距太大最直接的想法是在量化之前先把所有令牌的范数都调整到差不多的水平不就解决了吗按照这个思路只需要计算每个令牌的范数然后除以它所有令牌的能量就变成1了——这叫做令牌级缩放。然而研究团队发现单独使用这个方法不仅没有帮助在很多情况下反而会让量化效果更差。原因出在一个他们命名为缩放诱导异常值效应Scaling-Induced Outlier Artifact的新问题上。考虑这样一个场景正常令牌的向量里某一两个维度通道的数值特别大其他维度都比较小——这就是前面说的通道级异常值。而那些低范数的异常令牌各个维度的数值都比较小分布均匀就像一块平坦的草地。现在如果把低范数令牌的范数放大到和正常令牌一样会发生什么低范数令牌的所有维度都被均匀地放大了它原本平坦的草地变成了各处等高的丘陵——但在那些正常令牌异常值通道也就是少数几个高峰之外的维度上低范数令牌被放大后的数值反而比正常令牌在这些维度上的数值大得多。这就制造了新的异常值低范数令牌在被放大之后成了按通道量化中新的麻烦制造者让原本平滑的通道量程被人为地拉宽量化精度更差了。直接缩放治标不治本甚至适得其反。OScaR的妙处在于它用两步走的组合拳彻底绕开了这个困境。第一步叫做通道化旋转Canalized Rotation。这一步用的是一种叫Hadamard变换的数学操作快速哈达玛变换FHT。你可以把它想象成搅拌机把原来向量里各个通道的信息彻底打散混合让原本集中在少数几个通道的异常能量均匀分布到所有通道上。经过这个操作Key向量里那几根突出的钉子就不见了各个通道的数值变得相对均匀。这一步操作的另一个好处是它作用于通道维度不改变令牌之间的范数差异。也就是说经过Hadamard变换后强壮令牌依然强壮弱小令牌依然弱小——TNI问题本身还在。但是由于通道分布变得均匀了此前令人担忧的缩放诱导异常值效应就消失了低范数令牌不再有某几个维度特别小、其他维度特别大的不均匀结构所以把它们统一放大时不会在任何特定通道上制造新的异常值。这就为第二步铺平了道路。第二步叫做全令牌缩放Omni-Token Scaling。在经过Hadamard变换的基础上计算每个令牌向量的L2范数然后将每个令牌除以自己的范数把所有令牌的能量统一到同一水平。由于第一步已经消除了通道分布的不均匀性这里的缩放操作不再会制造新的麻烦而是安全地解决了TNI问题——所有令牌现在都在同一个量级上共享量化尺子不再是问题。为了在解码时恢复原始信息缩放时使用的范数值会被单独存储起来作为标签解码时把存储的低精度向量乘回这个范数就还原了原始向量的大小关系。对于Query向量同样需要做Hadamard变换这样才能保证Query和Key做点积计算注意力得分的核心操作时数学关系保持正确——因为Hadamard变换是一个正交变换Query和Key同时做相同的旋转它们之间的相对关系不变。对于Value向量由于它没有通道级异常值问题处理方式更简单用一个离线的Hadamard变换也就是在模型运行之前一次性完成不需要每次推理都重算把Value向量的权重矩阵预先乘以Hadamard矩阵之后按令牌量化就好了不需要在线额外操作几乎零额外开销。研究团队通过消融实验也就是逐步去掉某个组件看效果如何变化的测试验证了这两步的缺一不可单独用Hadamard旋转通道均匀了但令牌范数失衡依然存在量化误差并没有显著降低单独用令牌缩放范数平衡了但缩放诱导异常值效应又把效果抵消了结果往往比什么都不做还差只有两步组合使用才能同时解决两个问题实现真正有效的极限压缩。三、工程上的精细打磨让理论变成真正快起来的代码提出一个好方法是一回事把它变成在真实硬件上快速运行的代码又是另一回事。OScaR的研究团队在系统实现层面也下了大功夫把理论上的优势转化为实实在在的速度提升。整个OScaR系统由三个精心设计的CUDA核心CUDA Kernel也就是在GPU上并行运行的程序构成分别承担不同的职责。第一个核心负责在线执行Hadamard变换和令牌缩放——对于Key向量融合完成Hadamard变换和范数归一化对于Query向量只做Hadamard变换。第二个核心高效完成Key和Value向量的量化打包。第三个核心则负责解码时的反量化、反缩放以及最终的注意力计算。团队在这里采用了两个关键的工程技巧来压低开销。其一Hadamard变换的计算复杂度是O(d log d)而传统的矩阵乘法复杂度是O(d?)。对于维度d128的头部向量这意味着Hadamard变换的运算量大约是矩阵乘法的十几分之一速度优势非常明显。而且团队借助了HadaCore这个专门为Tensor Core英伟达GPU上的矩阵运算加速单元优化的Hadamard实现利用了H??? H? ? H??的Kronecker分解结构进一步减少了标量运算压力。其二令牌缩放中需要计算平方和的倒数平方根即1/√Σx??团队选择使用GPU硬件加速的rsqrt指令而非先计算L2范数再求倒数——这在数学上等价但硬件层面速度更快延迟更低。消融实验证实rsqrt实现和直接计算L2范数的结果精度几乎相同却具有更优的硬件效率。在缓存组织上系统同时维护一个打包缓存存放2位量化后的Key和Value以及对应的量化参数和令牌范数标签和一个残差缓存存放最近128个尚未满足量化块大小的令牌以全精度FP16存储。每当残差缓存积累到128个令牌时就触发一次批量量化把这批令牌打包进压缩缓存。这种设计既保证了按通道量化在块大小上的需求又避免了频繁的小批量量化带来的开销。四、用数字说话OScaR在各类AI模型上的实际表现方案再优雅也要用测试结果来说话。研究团队在三类、共六个具有代表性的开源AI模型上进行了全面测试覆盖纯文字、图文多模态和全模态文字图片语音三种场景。在纯文字AI模型的测试中团队使用了LongBench-E基准一个专门测试长文本理解能力的基准涵盖问答、摘要、代码补全等多类任务以及大海捞针Needle-in-a-HaystackNIAH测试把一段关键信息藏在长达数万字的文章里看AI能否找到它。在LongBench-E上OScaR在Llama-3.1-8B模型上取得了41.75%的平均得分比排名第二的方法OTT40.74%高出1.01个百分点而16位全精度基准是41.70%——OScaR的2位量化版本居然比16位基准还要略高在Qwen3-8B上OScaR得分48.74%16位基准是49.56%仅差1.7%远比其他量化方法更接近基准。在大海捞针测试中OScaR的检索准确率达到了96.5%不仅超越所有量化竞争对手第二名TurboQuant是92.7%甚至略微超过了不做任何压缩的16位基准96.0%。这说明OScaR的量化操作不仅没有损害长文本中的信息检索能力反而可能略微改善了某些情况下的表现。在图文多模态模型测试中团队使用了OCRBench测试AI识别图片中文字的能力和DocVQA测试AI理解文档图片并回答问题的能力。在OCRBench上OScaR在三个测试模型上均居量化方法首位LLaVA-v1.6-vicuna-7B得519分16位基准536分Qwen3-VL-8B得856分16位基准858分差距仅0.2个百分点Qwen3-VL-4B得838分比第二名高2.5个百分点。在DocVQA上OScaR同样在所有三个模型上领先Qwen3-VL-8B甚至以95.01%微超16位基准94.93%。全模态模型的测试针对Qwen3-Omni-30B在MMAU-Pro基准评估语音理解和指令跟随能力上进行。OScaR在开放式问答、高质量回答比例和音频指令跟随三项指标上均居量化方法首位且在所有三项上都超过了16位基准分别超出1.2、2.0和1.1个百分点。在效率方面研究团队在单张H20 GPU一款高端AI计算专用显卡上测试了Qwen3-8B模型的推理速度。与16位精度的FlashDecoding-v2基准目前主流的高效推理实现相比在128K超长文本场景下OScaR的解码速度提升了3.0倍从92.9毫秒/令牌降至30.9毫秒/令牌。在批处理场景下同时处理48个对话OScaR将内存占用压缩至原来的五分之一从28.3GB降至5.3GB推理吞吐量单位时间处理的令牌数量提升了4.1倍从331令牌/秒提升至1354令牌/秒。研究团队还与同类竞品TurboQuant做了详细的延迟对比。在短文本场景1K令牌下TurboQuant因为底层实现方式使用llama.cpp框架的差异延迟反而比OScaR低7.8毫秒对25.1毫秒但这优势随着文本变长急剧消失。在16K令牌时OScaR已经反超到128K令牌时TurboQuant的延迟达到72.9毫秒OScaR仅需30.9毫秒差距超过一倍。更重要的是TurboQuant使用的是2.5位的混合精度量化部分通道用3位其余用2位而OScaR全程只用2位存储效率更高且精度更好。从理论复杂度分析来看在d4096、头维度128、上下文长度10000的典型配置下OScaR每步解码的理论运算量约为1.23亿单位虽然高于KIVI约0.82亿但远低于TurboQuant约2.48亿。OScaR完全不需要查表操作TurboQuant需要大量查表这对GPU执行效率非常友好因为GPU的算术流水线远比内存随机访问高效。这种理论上适度开销换取最高精度的位置就是OScaR在精度-效率帕累托前沿上占据的独特位置比最便宜的KIVI准确得多比最复杂的TurboQuant便宜得多同时精度还更高。五、研究边界与未来还有哪些问题有待解决任何研究都有它的局限性研究团队也坦诚地指出了OScaR的边界。由于现代语言模型普遍使用RoPE旋转位置编码机制Key向量在进入注意力计算前会被动态施加位置相关的旋转这使得Hadamard变换无法像处理Value那样提前离线完成——它必须在每次生成新令牌时在线计算。这虽然已经通过HadaCore等工程优化大幅降低了开销但相比完全没有旋转操作的KIVI依然存在额外计算成本。未来如果能找到在RoPE存在条件下也能离线融合旋转的方案整体效率还能进一步提升。此外当前的实验主要集中在具有标准LLM大型语言模型骨干网络的模型上。研究团队认为OScaR的框架理论上也适用于其他需要KV缓存的自回归推理任务比如流式视觉几何模型、视觉自回归模型、带有KV缓存的扩散型语言模型等。但这些模型的架构与标准LLM有较大差异且在这些领域中KV缓存压缩本身也是新兴课题相关实验还有待未来展开。说到底OScaR做的事情其实非常符合奥卡姆剃刀原则——同名论文的名称来源正是如此。这个中世纪哲学原则主张在解释问题时不必要地复杂的假设应该被剃掉最简单能解决问题的方案才是最好的方案。对付KV缓存量化中令牌范数失衡这个核心问题研究团队没有堆叠复杂的误差校正机制、没有引入额外的查找表、没有依赖高精度残差存储只是对症下药地用Hadamard旋转消灭通道不均匀性再用令牌缩放消灭范数失衡两步走干净利落。这对于正在使用或即将使用大型AI模型的普通用户来说意味着未来他们在手机、平板或云端与AI交互时即便AI处理的是超长对话、高清图片或长篇音频系统也能更流畅、更省电、服务更多人——而AI本身的聪明程度几乎不受影响。归根结底好的压缩不是把AI变笨而是让AI在更小的空间里依然聪明地工作。感兴趣的读者可以通过arXiv编号2605.19660找到这篇论文的完整版本其中包含了所有模型的详细实验数据、理论推导、CUDA实现细节以及丰富的可视化结果是目前在多模态AI模型KV缓存极限量化这一方向上少有的系统性研究。QAQ1KV缓存量化为什么在2位压缩时特别容易失效其他量化方法有哪些局限A2位量化只有4个可区分的数值级别容错空间极小任何数值分布的不均匀都会造成严重失真。现有方法如KIVI在应对通道异常值时表现尚可但忽视了令牌范数失衡问题导致不同令牌被迫共享同一粗糙的量化尺子弱小令牌的信息几乎丢失。TurboQuant等方法虽加入了残差纠错但引入了查表操作和复杂流水线在长文本场景下速度反而下降明显。OScaR通过从根本上消除范数失衡绕开了这些问题。Q2OScaR的Hadamard变换会不会破坏注意力机制的正确性A不会。Hadamard变换是一种正交变换数学上类似旋转不改变向量之间的内积点积关系。注意力得分的计算依赖Query和Key的内积只要Query和Key同时做相同的Hadamard变换两者内积的结果与变换前完全一致。OScaR正是这样设计的Key做Hadamard旋转后量化存储Query在计算注意力时也先做同样的旋转数学上等价于完全没有做旋转正确性得到严格保证。Q3令牌范数失衡问题是否只存在于文字类AI模型中A不是。研究团队在图文混合模型和全模态模型上都观察到了令牌范数失衡现象而且多模态模型中的表现更为复杂。除了与注意力汇点相关的低范数异常令牌多模态模型还存在跨模态范数跳变文字令牌和图片令牌的范数水平差异显著以及某些特殊层中的高范数异常令牌。这些多样化的失衡模式使多模态场景下的量化更为困难OScaR的全令牌缩放方案能够统一处理这些不同的失衡模式在多模态测试中同样取得了领先成绩。