大模型的“瘦身”秘籍一文读懂量化技术什么是量化望文生义我的朴素的理解是:粗略的记录直接上例子一个整数1234量化一下1000看看差异1234你需要记住4个字符但是1000可以只记录2个1、千区别是什么精度下降来做一道数学题12341不量化的答案是1235量化的答案是1千是不是错了是的但是他要是做这题呢12341000不量化答案是2234量化的答案是2千是不是错了还是有什么区别呢没彻底错千位数字还是对的勉强可以说是近似这就是量化的目的用可接受的精度损失来降低资源的要求理论的概念总结量化是指减少表示模型参数所需比特数的过程更详细点就是将模型中那些高精度的浮点数如32位浮点数FP32转换为低精度的整数如8位整数INT8甚至4位整数INT4量化需要考虑的地方量化目标 —— 权重、激活值数据类型 —— 浮点数FP32、FP16、块浮点 FP16、INT8、INT4、MXFP4量化时机 —— 训练后量化PTQ、量化感知训练QAT工具 —— Quark、Olive、ONNX、Brevitas量化的核心原理缩放因子与零点第一次读到理论概念和我淳朴的想法还是有点不一样的我的理解是1234量化成1000毕竟还是近似的但是概念是FP32量化未int8甚至是int4这这么可能一个12345678.123456怎么表示成1000这个就有点想当然了是一个错误的理解大模型用到的数据从来不是绝对数据而是相对值表示的是关系期中考试班级数学最高分100分最低分10分这是百分制但是也可以精简成10分值的10分和1分还可以进一步精简为4分值优、差良、中所以准确的来说量化是数据范围到数据范围的映射朴素的来理解就是将班级考试百分制改成10分值确定范围首先我们要找到模型参数比如权重的最小值和最大值。计算缩放因子Scale这个因子就像一把“比例尺”。它决定了高精度的数值范围如何映射到低精度的整数范围。例如一个参数范围是[-3.5, 4.2]我们要把它映射到8位整数的范围[-128, 127]。缩放因子scale (4.2 - (-3.5)) / (127 - (-128)) ≈ 0.058。计算零点Zero Point这是为了让“0”这个关键数值能精确地对应到整数“0”避免因偏移导致的误差。zero_point round(-(-3.5) / 0.058) ≈ 60。量化与反量化量化将原始浮点数x转换为整数qq round(x / scale zero_point)。反量化在推理时再将整数q还原为近似的浮点数xx (q - zero_point) * scale通过这套“缩放偏移”的机制量化模型在存储和计算时使用低精度数据但在推理时能精准还原实现了效率与精度的完美平衡。量化的优势资源占用大幅度减少内存和cpu毕竟存储1000和存储1、计算1234x5678和计算1x5是完全不同的算力需求直观的看一下抱脸上qwen3-35b-a3b的量化后的大小吧小结突飞猛进的跟着大模型的学习终于有空静下来思考一下提示词工程入门提示词技术基础
大模型的“瘦身”秘籍:一文读懂量化技术
发布时间:2026/6/15 19:05:21
大模型的“瘦身”秘籍一文读懂量化技术什么是量化望文生义我的朴素的理解是:粗略的记录直接上例子一个整数1234量化一下1000看看差异1234你需要记住4个字符但是1000可以只记录2个1、千区别是什么精度下降来做一道数学题12341不量化的答案是1235量化的答案是1千是不是错了是的但是他要是做这题呢12341000不量化答案是2234量化的答案是2千是不是错了还是有什么区别呢没彻底错千位数字还是对的勉强可以说是近似这就是量化的目的用可接受的精度损失来降低资源的要求理论的概念总结量化是指减少表示模型参数所需比特数的过程更详细点就是将模型中那些高精度的浮点数如32位浮点数FP32转换为低精度的整数如8位整数INT8甚至4位整数INT4量化需要考虑的地方量化目标 —— 权重、激活值数据类型 —— 浮点数FP32、FP16、块浮点 FP16、INT8、INT4、MXFP4量化时机 —— 训练后量化PTQ、量化感知训练QAT工具 —— Quark、Olive、ONNX、Brevitas量化的核心原理缩放因子与零点第一次读到理论概念和我淳朴的想法还是有点不一样的我的理解是1234量化成1000毕竟还是近似的但是概念是FP32量化未int8甚至是int4这这么可能一个12345678.123456怎么表示成1000这个就有点想当然了是一个错误的理解大模型用到的数据从来不是绝对数据而是相对值表示的是关系期中考试班级数学最高分100分最低分10分这是百分制但是也可以精简成10分值的10分和1分还可以进一步精简为4分值优、差良、中所以准确的来说量化是数据范围到数据范围的映射朴素的来理解就是将班级考试百分制改成10分值确定范围首先我们要找到模型参数比如权重的最小值和最大值。计算缩放因子Scale这个因子就像一把“比例尺”。它决定了高精度的数值范围如何映射到低精度的整数范围。例如一个参数范围是[-3.5, 4.2]我们要把它映射到8位整数的范围[-128, 127]。缩放因子scale (4.2 - (-3.5)) / (127 - (-128)) ≈ 0.058。计算零点Zero Point这是为了让“0”这个关键数值能精确地对应到整数“0”避免因偏移导致的误差。zero_point round(-(-3.5) / 0.058) ≈ 60。量化与反量化量化将原始浮点数x转换为整数qq round(x / scale zero_point)。反量化在推理时再将整数q还原为近似的浮点数xx (q - zero_point) * scale通过这套“缩放偏移”的机制量化模型在存储和计算时使用低精度数据但在推理时能精准还原实现了效率与精度的完美平衡。量化的优势资源占用大幅度减少内存和cpu毕竟存储1000和存储1、计算1234x5678和计算1x5是完全不同的算力需求直观的看一下抱脸上qwen3-35b-a3b的量化后的大小吧小结突飞猛进的跟着大模型的学习终于有空静下来思考一下提示词工程入门提示词技术基础