量化介绍【免费下载链接】ops-cv本项目是CANN提供的图像处理、目标检测相关的算子库实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-cv量化广泛应用于深度学习模型中特别是在推理过程中。通过量化模型可以在硬件上更高效地运行减少计算资源的消耗和加速推理过程同时降低模型的存储需求。CANN算子量化是指对神经网络中Matmul等矩阵cube类算子的输入Tensor从高bit到低bit转换的计算过程同时生成对应的量化参数scale。当低bit的cube计算完成后可通过量化参数scale将低bit数值转换回高bit数值从而保证整体计算结果的正确性效果与直接用高bit计算近似等价并有效提升计算效率。静态量化使用预先确定的量化参数进行量化。推理场景下对权重weight的量化一般采用静态量化量化算子性能会更好些。动态量化使用输入数据在线计算量化参数进行量化。推理场景下对激活activation的量化一般采用动态量化更能适应数据的变化精度更高训练场景下为了提升量化精度也一般采用动态量化。注意动态量化因为在线生成量化参数量化算子性能会略差些。量化模式量化模式又称量化粒度是指对算子的不同输入Tensor采用不同的量化计算级别常见的量化计算模式包括说明m、n、k变量分别表示Tensor计算的不同轴大小。左矩阵、右矩阵分别指cube算子中用于矩阵乘法计算的两个输入Tensor一般左矩阵代表激活activation、右矩阵代表权重weight请用户按实际情况理解和使用。pertensor量化简称T量化量化对象既可以是左矩阵也可以是右矩阵每个Tensor共用一个相同的量化参数。假设左矩阵shape为(m, k)右矩阵shape为(k, n)k为reduce轴生成量化参数的shape为(1, )。perchannel量化简称C量化量化对象是右矩阵每个channel分别使用独立的量化参数。假设右矩阵shape为(k, n)k为reduce轴生成量化参数的shape为(n, )。pertoken量化简称K量化量化对象是左矩阵每个token分别使用独立的量化参数。假设左矩阵shape为(m, k)k为reduce轴生成量化参数的shape为(m, )。pergroup量化简称G量化量化对象既可以是左矩阵也可以是右矩阵在reduce轴上对数据分组每组使用独立的量化参数。假设左矩阵shape为(m, k)k为reduce轴在k轴上分组group size为gs生成量化参数的shape为(m, k/gs)。假设右矩阵shape为(k, n)k为reduce轴在k轴上分组group size为gs生成量化参数的shape为(k/gs, n)。perblock量化简称B量化量化对象既可以是左矩阵也可以是右矩阵在所有轴上对数据分块每块使用独立的量化参数。假设左矩阵shape为(m, k)k为reduce轴在m、k轴上分别按(bs, bs)块对数据分组bs为block size生成量化参数的shape为(m/bs, k/bs)。假设右矩阵shape为(k, n)k为reduce轴在k、n轴上分别按(bs, bs)块对数据分组bs为block size生成量化参数的shape为(k/bs, n/bs)。常见组合量化全量化一般是指对左、右矩阵均进行量化的模式包括pertensor-perchannel量化模式简称T-C量化模式pertoken-perchannel量化模式简称K-C量化模式pergroup-perblock量化模式简称G-B量化模式pertensor-perchannel-pergroup量化模式简称T-CG量化模式perblock-perblock量化模式简称B-B量化模式伪量化一般是指对权重矩阵weight进行量化的模式包括perchannel量化模式简称C量化模式。mx量化本质是Microscaling量化通过动态调整缩放因子在极低比特下如1bit保持模型精度。这里指pergroup-pergroup量化模式简称G-G量化模式是对于量化参数类型为FLOAT8_E8M0且group size为32的特例。【免费下载链接】ops-cv本项目是CANN提供的图像处理、目标检测相关的算子库实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-cv创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
CANN / ops-cv 量化介绍
发布时间:2026/7/5 3:59:11
量化介绍【免费下载链接】ops-cv本项目是CANN提供的图像处理、目标检测相关的算子库实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-cv量化广泛应用于深度学习模型中特别是在推理过程中。通过量化模型可以在硬件上更高效地运行减少计算资源的消耗和加速推理过程同时降低模型的存储需求。CANN算子量化是指对神经网络中Matmul等矩阵cube类算子的输入Tensor从高bit到低bit转换的计算过程同时生成对应的量化参数scale。当低bit的cube计算完成后可通过量化参数scale将低bit数值转换回高bit数值从而保证整体计算结果的正确性效果与直接用高bit计算近似等价并有效提升计算效率。静态量化使用预先确定的量化参数进行量化。推理场景下对权重weight的量化一般采用静态量化量化算子性能会更好些。动态量化使用输入数据在线计算量化参数进行量化。推理场景下对激活activation的量化一般采用动态量化更能适应数据的变化精度更高训练场景下为了提升量化精度也一般采用动态量化。注意动态量化因为在线生成量化参数量化算子性能会略差些。量化模式量化模式又称量化粒度是指对算子的不同输入Tensor采用不同的量化计算级别常见的量化计算模式包括说明m、n、k变量分别表示Tensor计算的不同轴大小。左矩阵、右矩阵分别指cube算子中用于矩阵乘法计算的两个输入Tensor一般左矩阵代表激活activation、右矩阵代表权重weight请用户按实际情况理解和使用。pertensor量化简称T量化量化对象既可以是左矩阵也可以是右矩阵每个Tensor共用一个相同的量化参数。假设左矩阵shape为(m, k)右矩阵shape为(k, n)k为reduce轴生成量化参数的shape为(1, )。perchannel量化简称C量化量化对象是右矩阵每个channel分别使用独立的量化参数。假设右矩阵shape为(k, n)k为reduce轴生成量化参数的shape为(n, )。pertoken量化简称K量化量化对象是左矩阵每个token分别使用独立的量化参数。假设左矩阵shape为(m, k)k为reduce轴生成量化参数的shape为(m, )。pergroup量化简称G量化量化对象既可以是左矩阵也可以是右矩阵在reduce轴上对数据分组每组使用独立的量化参数。假设左矩阵shape为(m, k)k为reduce轴在k轴上分组group size为gs生成量化参数的shape为(m, k/gs)。假设右矩阵shape为(k, n)k为reduce轴在k轴上分组group size为gs生成量化参数的shape为(k/gs, n)。perblock量化简称B量化量化对象既可以是左矩阵也可以是右矩阵在所有轴上对数据分块每块使用独立的量化参数。假设左矩阵shape为(m, k)k为reduce轴在m、k轴上分别按(bs, bs)块对数据分组bs为block size生成量化参数的shape为(m/bs, k/bs)。假设右矩阵shape为(k, n)k为reduce轴在k、n轴上分别按(bs, bs)块对数据分组bs为block size生成量化参数的shape为(k/bs, n/bs)。常见组合量化全量化一般是指对左、右矩阵均进行量化的模式包括pertensor-perchannel量化模式简称T-C量化模式pertoken-perchannel量化模式简称K-C量化模式pergroup-perblock量化模式简称G-B量化模式pertensor-perchannel-pergroup量化模式简称T-CG量化模式perblock-perblock量化模式简称B-B量化模式伪量化一般是指对权重矩阵weight进行量化的模式包括perchannel量化模式简称C量化模式。mx量化本质是Microscaling量化通过动态调整缩放因子在极低比特下如1bit保持模型精度。这里指pergroup-pergroup量化模式简称G-G量化模式是对于量化参数类型为FLOAT8_E8M0且group size为32的特例。【免费下载链接】ops-cv本项目是CANN提供的图像处理、目标检测相关的算子库实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-cv创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考