llm-compressor添加新量化策略 -- 邪修方法

发布时间：2026/5/24 1:33:58

常规步骤请参考自定义 INT4 Block 量化从 llm-compressor 到 vLLM 完整讲解-CSDN博客这篇文章主要讲解一下另一条非常规但是特别简单的添加量化策略的路径从上一篇文章我们知道添加自定义的量化策略是需要通过继承Modifier自己实现一边完整流程包括计算scale等。但是量化整体上来区分无非也就一下几种group分组block分块per-channelper-tokenper-tensor这些其实在compressor里面都有的只不过定义在另一个依赖包compressed-tensors里compressed-tensors\src\compressed_tensors\quantization\quant_scheme.py文件太长就不完全粘贴过来了留两个示例# 4 bit integer weights only quantization W4A16 dict( weightsQuantizationArgs( num_bits4, typeQuantizationType.INT, strategyQuantizationStrategy.GROUP, group_size128, symmetricTrue, dynamicFalse, ), ) # 4 bit integer weights only asymmetric quantization W4A16_ASYM dict( weightsQuantizationArgs( num_bits4, typeQuantizationType.INT, strategyQuantizationStrategy.GROUP, group_size128, symmetricFalse, dynamicFalse, ), ) FP8_BLOCK dict( weightsQuantizationArgs( num_bits8, typeQuantizationType.FLOAT, strategyQuantizationStrategy.BLOCK, symmetricTrue, dynamicFalse, block_structure[128, 128], ), input_activationsQuantizationArgs( num_bits8, typeQuantizationType.FLOAT, strategyQuantizationStrategy.GROUP, symmetricTrue, dynamicTrue, group_size128, ), )那如果我们直接自己组合一个新的QuantizationArgs能不能行呢QuantizationArgs(num_bits4,typeQuantizationType.INT,strategyQuantizationStrategy.GROUP,group_size128,symmetricTrue,dynamicFalse,)答案是还真行下面来详细讲解一些怎么通过这种方式实现上一篇文章中的int4_block量化1. 定义新的QuantizationArgs有两种方式可以实现自行选取方式一复制 W4A16 的所有字段只改分组方式from compressed_tensors.quantization import ( QuantizationArgs, QuantizationStrategy, QuantizationType, ) W4A16_BLOCK dict( weightsQuantizationArgs( **{**W4A16[weights].model_dump(), # 继承 W4A16 的所有字段 strategy: QuantizationStrategy.BLOCK, group_size: None, # 清掉 group 配置 block_structure: [16, 16]}, # 加上 block 配置 ), )方式二直接写新配置更清晰from compressed_tensors.quantization import ( QuantizationArgs, QuantizationStrategy, QuantizationType, ) W4A16_BLOCK dict( weightsQuantizationArgs( num_bits4, typeQuantizationType.INT, strategyQuantizationStrategy.BLOCK, block_structure[16, 16], symmetricTrue, dynamicFalse, ), )这样写是不是简单多了避免了继承 Modifier 的复杂流程2. 注册新的scheme这是最重要的一步把这个自定义的scheme注册到quant_scheme中from compressed_tensors.quantization import quant_scheme if W4A16_BLOCK not in quant_scheme.PRESET_SCHEMES: quant_scheme.PRESET_SCHEMES[W4A16_BLOCK] W4A16_BLOCK print([register_block_scheme] W4A16_BLOCK registered)完整代码 register_custom_scheme.pyImport this module to register W4A16_BLOCK preset scheme. from compressed_tensors.quantization import ( QuantizationArgs, QuantizationStrategy, QuantizationType, ) from compressed_tensors.quantization import quant_scheme W4A16_BLOCK dict( weightsQuantizationArgs( num_bits4, typeQuantizationType.INT, strategyQuantizationStrategy.BLOCK, block_structure[16, 16], symmetricTrue, dynamicFalse, ), ) if W4A16_BLOCK not in quant_scheme.PRESET_SCHEMES: quant_scheme.PRESET_SCHEMES[W4A16_BLOCK] W4A16_BLOCK print([register_block_scheme] W4A16_BLOCK registered)量化时只要导入register_custom_scheme.py 执行注册就可以直接使用了import register_block_scheme # register custom quant scheme recipe QuantizationModifier(targetsLinear, schemeW4A16_BLOCK, ignore[lm_head]) oneshot(modelmodel, reciperecipe, pipelinedatafree)这样是不是就简单多了不过这是针对llm-compressor这部分量化sheme的组合想要在vllm顺利执行推理还要在vllm侧添加对应的scheme分发路由可以参考上一篇文章自定义 INT4 Block 量化从 llm-compressor 到 vLLM 完整讲解-CSDN博客

RuoYi接口调试：Postman作为Spring Boot权限系统可信信使

1. 为什么RuoYi项目里Postman不是“配角”，而是调试生命线在RuoYi开发实战中，很多人把Postman当成一个“临时工具”——写完接口顺手点一下，成功了就扔一边，失败了就切回IDE疯狂加日志、重启服务、反复试错。我带过三届实习生&…

2026/5/24 1:33:38 阅读更多

《Java 基础必学：ArrayList、HashMap 和泛型详解》

一、引言 1.为什么这些是 Java 基础的重点？ ArrayList、HashMap 和泛型是Java集合框架的核心组成部分，广泛应用于实际开发中。 ArrayList：基于动态数组实现，支持快速随机访问，适合频繁查询和遍历的场景。HashMap&…

2026/5/24 1:33:18 阅读更多

在Ubuntu 20.04上从源码编译Asterisk 18：保姆级避坑指南（解决pjproject、jansson依赖问题）

在Ubuntu 20.04上从源码编译Asterisk 18：深度解构依赖管理与编译优化当你决定从源码构建Asterisk PBX系统时，真正的挑战往往始于那些隐藏在 ./configure 背后的第三方依赖。特别是在Ubuntu 20.04这个长期支持版本上，既要保证系统稳定性又要…

2026/5/24 1:32:57 阅读更多

传感器网络误差分析：从核心公式到人群计数与城市计算的实战优化

1. 项目概述：从“数人头”到“算城市”，传感器网络误差的实战拆解在智慧城市、安防监控、交通流量分析这些领域，我们常常需要回答一个看似简单的问题：这里到底有多少人？无论是评估一个商圈的人气，还是监测一…

2026/5/24 2:33:18 阅读更多

接口测试用例与报告的契约驱动设计方法论

1. 为什么接口测试用例和报告不能“套模板就交差”？很多人拿到“接口测试用例模板.xlsx”和“测试报告模板.docx”，填完字段、凑够条数、导出PDF，就以为完成了接口测试交付。我带过三届测试团队，每年都会收到至少17份这样的“标准…

2026/5/24 2:31:16 阅读更多

告别“盲人摸象”：用Sentinel-1数据+SBAS-InSAR，5步搞定城市地面沉降监测（附Python代码片段）

5步实战：用Sentinel-1与SBAS-InSAR技术精准监测城市地面沉降城市地面沉降如同隐形的慢性病，若不及时监测可能引发基础设施损毁、建筑倾斜等连锁反应。传统水准测量耗时费力，而合成孔径雷达干涉测量（InSAR）技术为这一难…

2026/5/24 2:29:35 阅读更多

Vibe Coding工程化：从“感觉编程“到可落地的AI开发范式

一个需要正视的现象 2026年，“Vibe Coding"已经不是一个新鲜词汇。Andrej Karpathy在2025年提出这个概念时，描述的是一种完全依赖AI的编程体验：你描述意图，模型生成代码，你甚至不需要真正"读懂"代码就能…

2026/5/24 2:28:31 阅读更多

XR联邦学习：隐私保护与多模态数据融合技术

1. XR联邦基础模型概述XR（扩展现实）技术正在重塑人机交互的边界，而联邦学习（Federated Learning）为这一领域带来了革命性的隐私保护解决方案。作为一名长期跟踪XR与AI融合发展的技术从业者，我见证了联邦基础…

2026/5/24 2:28:31 阅读更多

环境物联网超低功耗无线收发器设计与晶体振荡器替代方案

1. 环境物联网收发器设计背景与挑战环境物联网（Ambient IoT）作为物联网技术的最新演进方向，正在彻底改变我们对低功耗无线连接的认知。这种技术的核心在于利用环境能量收集技术，使设备摆脱对传统电池的依赖。想象一下，…

2026/5/24 2:28:31 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/24 0:01:12 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/24 0:02:33 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

2026/5/24 0:01:12 阅读更多

附录 B：术语表

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

2026/5/24 0:02:33 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/23 15:04:07 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/23 12:38:32 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/23 4:55:00 阅读更多

相关文章

RuoYi接口调试：Postman作为Spring Boot权限系统可信信使

《Java 基础必学：ArrayList、HashMap 和泛型详解》

在Ubuntu 20.04上从源码编译Asterisk 18：保姆级避坑指南（解决pjproject、jansson依赖问题）

传感器网络误差分析：从核心公式到人群计数与城市计算的实战优化

接口测试用例与报告的契约驱动设计方法论

告别“盲人摸象”：用Sentinel-1数据+SBAS-InSAR，5步搞定城市地面沉降监测（附Python代码片段）

Vibe Coding工程化：从“感觉编程“到可落地的AI开发范式

XR联邦学习：隐私保护与多模态数据融合技术

环境物联网超低功耗无线收发器设计与晶体振荡器替代方案

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥