llama.cpp 把 Q4_0 量化的取整写成(int8_t)(x*id + 8.5f),把 Q4_1 写成(int8_t)(x*id + 0.5f)——两种格式只差一个加法常数里的那个 8。你大概会这么想:Q4_1 不过是 Q4_0 加了个min字段,每块多 2 个字节,把点积内核照抄过来、改一改反量化就行。错。它俩的点积内核连一行都对不上:Q4_0 在循环里给每个 nibble 减 8,Q4_1 一个 8 都不减,反而多算一个m·s的交叉项。更要命的是那个s。它不在权重块里,而在激活块里——Q4_1 逼着配套的激活量化从 Q8_0(34 字节/块)换成 Q8_1(36 字节/块,多存一个s = d·Σq)。一个权重格式选了非对称,代价传染到了激活格式。所以"Q4_1 比 Q4_0 多 0.5 bpw"这句话是骗你的。它多的不止权重那 0.5 个 bit,是一条从块布局、取整常数、反量化公式、最优 scale 优化器的维度,一路烧到激活格式和点积交叉项的链子。这篇文章从两个结构体的 18 vs 20 字节出发,把这条传染链一节一节焊死。读完你能手写出和 GGML逐字节一致的两份实现,并带走一张判据明确的选型表:什么时候这 0.5 bpw 值得花,什么时候是纯浪费。一、一个加法常数,撕开两种格式先把全景摆出来,后面九节都是在给这张全景填证据。Q4_0 和 Q
均值不偏别乱用 Q4_1!用误差数学算一算 llama.cpp 对称与非对称量化的真实损耗
llama.cpp 把 Q4_0 量化的取整写成(int8_t)(x*id + 8.5f),把 Q4_1 写成(int8_t)(x*id + 0.5f)——两种格式只差一个加法常数里的那个 8。你大概会这么想:Q4_1 不过是 Q4_0 加了个min字段,每块多 2 个字节,把点积内核照抄过来、改一改反量化就行。错。它俩的点积内核连一行都对不上:Q4_0 在循环里给每个 nibble 减 8,Q4_1 一个 8 都不减,反而多算一个m·s的交叉项。更要命的是那个s。它不在权重块里,而在激活块里——Q4_1 逼着配套的激活量化从 Q8_0(34 字节/块)换成 Q8_1(36 字节/块,多存一个s = d·Σq)。一个权重格式选了非对称,代价传染到了激活格式。所以"Q4_1 比 Q4_0 多 0.5 bpw"这句话是骗你的。它多的不止权重那 0.5 个 bit,是一条从块布局、取整常数、反量化公式、最优 scale 优化器的维度,一路烧到激活格式和点积交叉项的链子。这篇文章从两个结构体的 18 vs 20 字节出发,把这条传染链一节一节焊死。读完你能手写出和 GGML逐字节一致的两份实现,并带走一张判据明确的选型表:什么时候这 0.5 bpw 值得花,什么时候是纯浪费。一、一个加法常数,撕开两种格式先把全景摆出来,后面九节都是在给这张全景填证据。Q4_0 和 Q
相关文章
生产环境下的Agent记忆机制设计:短期上下文与长期向量库的工程化取舍
核心摘要 在生产环境中构建AI Agent,记忆系统绝非“把对话塞进Prompt”或“接个RAG”那么简单。它是决定Agent能否从“玩具”进化为“可靠生产力”的架构基石。本文摒弃学术界的理想化假设,直面工程落地中的脏活累活,深度拆解短期上下文&…
硬件预取器安全挑战与PhantomFetch防御技术解析
1. 硬件预取器安全挑战与防御需求现代处理器中的硬件预取器(Hardware Prefetcher)通过预测内存访问模式提前获取数据,是提升系统性能的关键技术。其中IP-stride预取器通过分析指令指针(IP)的最低有效位和内存访问步长&…
2026年大厂春招“大撒币”!AI岗位月薪6万+,收藏这份高薪指南,小白也能抓住财富机遇!
2026年AI行业人才缺口突破500万,大厂纷纷提高薪资争夺人才,平均月薪超6万,最高年薪达300万。AI岗位竞争激烈,供需比不足2:1,远低于公务员考试。高校纷纷成立AI学院,AI专业成为最热门专业。职场人需提升AI技…
技术速递|边缘 AI 的 Token 经济学:基于 WinML CLI 在 Windows NPU 上运行 Qwen3
作者:卢建晖 - 微软高级云技术布道师 排版:Alan Wang 改变对话的那个数字 大多数关于“本地运行大语言模型”的教程,都会从模型本身讲起。而这篇文章,将从一张账单开始。 云端大模型生成的每一个 Token 都需要计费。单次请求的成…
AI 创意工具产品化:从技术 Demo 到可交付产品的三道坎
AI 创意工具产品化:从技术 Demo 到可交付产品的三道坎一、Demo 很酷,然后呢? AI 创意工具的开发者几乎都经历过这样的场景:花一个周末写了个 Demo,输入一段描述就能生成精美的图片或文案,发到社交媒体上收获…
从OCR到RAG:文档智能解析与检索增强生成全链路技术详解
本文系统梳理文档智能处理全链路技术:从底层OCR文字识别原理,到多格式文档(PDF/Word/PPT)解析,再到PaddleOCR-VL多模态解析、复杂元素处理、中文文本分割,最后深入RAG系统的四大评估指标。全文配有示意图&a…
LLM 工作流编排:从 Prompt 链到可靠自动化流水线的设计实践
LLM 工作流编排:从 Prompt 链到可靠自动化流水线的设计实践一、链式调用的脆弱性:LLM 工作流在生产环境的可靠性危机 将 LLM 集成到业务工作流中,最常见的架构是 Prompt 链:将复杂任务拆解为多个步骤,前一步的输出作为…
性能分析工具:cProfile与timeit实战
在Python开发中,写出正确且可读的代码只是第一步。当应用规模增长、用户量上升,性能就变成了至关重要的非功能需求。然而,性能优化最怕“拍脑袋”和“过早优化”——如果不清楚瓶颈在哪儿,盲目调整往往事倍功半,甚至引入新的问题。这时,性能分析工具就成了我们最可靠的伙…
从文本到音轨:AI 音乐生成流水线的工程化实践与音质调优
从文本到音轨:AI 音乐生成流水线的工程化实践与音质调优 一、AI 生成的音乐,为什么听起来像"电梯BGM"? 用 AI 音乐生成工具(Suno、Udio、MusicGen)输出一段音乐,技术上只需一行 API 调用。但产出…
千问AI眼镜:阿里AI战略急先锋,能否在激烈竞争中突围?
千问眼镜:销量第一背后的挑战不久前,不少第三方统计机构给千问背书,甚至给出全国销量第一的统计结果。这个第一的含金量有多高?暂且先打个问号。但这些榜单至少说明,千问眼镜延续了阿里AI战略整体偏激进的风格…
Tomcat中X-Frame-Options配置实战:防御点击劫持的四种方法与最佳实践
1. 项目概述:为什么X-Frame-Options是Web安全的“防盗门”?最近在排查一个老项目的安全审计报告时,又被提到了“点击劫持”风险,矛头直指缺失的X-Frame-Options响应头。这已经不是第一次了,很多开发团队,尤…
10分钟AI语音克隆与实时变声:Retrieval-based-Voice-Conversion-WebUI完整指南
10分钟AI语音克隆与实时变声:Retrieval-based-Voice-Conversion-WebUI完整指南 【免费下载链接】Retrieval-based-Voice-Conversion-WebUI Easily train a good VC model with voice data < 10 mins! 项目地址: https://gitcode.com/GitHub_Trending/re/Retrie…
Google AI Studio 300美元额度的真相与实战指南
1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…
PDF对比终极指南:用diff-pdf轻松识别文档差异的完整教程
PDF对比终极指南:用diff-pdf轻松识别文档差异的完整教程 【免费下载链接】diff-pdf A simple tool for visually comparing two PDF files 项目地址: https://gitcode.com/gh_mirrors/di/diff-pdf 还在为PDF文档的版本对比而烦恼吗?diff-pdf这款开…
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用
1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…
Zotero Duplicates Merger:5步彻底清理文献库重复条目
Zotero Duplicates Merger:5步彻底清理文献库重复条目 【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…
利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码
✅作者简介:热爱科研的Matlab仿真开发者,擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页:Matlab科研工作室🍊个人信条:格物致知,完整Matlab代码及仿真咨询…
为什么你的Gemini邮件CTE低于行业均值2.8倍?:从Prompt架构到发送时序的深度归因
更多请点击: https://intelliparadigm.com 第一章:为什么你的Gemini邮件CTE低于行业均值2.8倍?:从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率(CTE)显著偏低,根本原因常被误判为…