QLoRA：4-bit 量化微调的完整链路

发布时间：2026/5/23 20:15:02

本文基于昇腾CANN和昇腾NPU围绕 cann-recipes-train 仓库的相关技术展开。QLoRA 不是简单的 LoRA 量化。它在 LoRA 的冻结权重上做了 NF4 量化同时保留了 LoRA 适配器的 FP16 精度。CANN 上部署 QLoRA 模型时NF4 的反量化要在 NPU 上做不能让 CPU 插一手。NF4 量化怎么把权重压到 4-bit# NF4 量化——正态分布的 4-bit 量化importtorchimportnumpyasnpclassNF4Quantizer: NF4: Normal Float 4——值分布按正态分布的百分位分桶 16 个桶每个桶有相同概率正态下所以值密集的地方桶多稀疏的地方桶少 # NF4 的 16 个量化值——从标准正态分布 CDF 的等间隔百分位算出NF4_LEVELSnp.array([-1.0,-0.6962,-0.5251,-0.3926,-0.2779,-0.1728,-0.0739,0.0000,0.0739,0.1728,0.2779,0.3926,0.5251,0.6962,1.0000,1.5000],dtypenp.float32)staticmethoddefquantize(weight_fp16): weight_fp16: [out_dim, in_dim] FP16 权重返回: uint8 数组每个 uint8 装 2 个 4-bit 值 # 对每个 1D 行做归一化——QLoRA 是逐行量化的shapeweight_fp16.shape w_flatweight_fp16.flatten()# 算每行的 absmax——用来归一化到 [-1, 1]row_maxweight_fp16.abs().max(dim-1,keepdimTrue).values# [out_dim, 1]row_maxrow_max.clamp(min1e-12)# 归一化w_normalizedweight_fp16/row_max# 值范围 [-1, 1]# 映射到离最近的 NF4 levellevelstorch.tensor(NF4Quantizer.NF4_LEVELS,deviceweight_fp16.device)indicestorch.bucketize(w_normalized,levels)-1indicesindices.clamp(0,15).to(torch.uint8)# 压缩两个 4-bit 塞进一个 uint8packedindices[...,::2]|(indices[...,1::2]4)returnpacked.cpu().numpy(),row_max.cpu().numpy()staticmethoddefdequantize(packed,row_max,shape): packed: 量化后的 uint8 数组 row_max: 每行的 absmax shape: 原始 [out_dim, in_dim] levelstorch.tensor(NF4Quantizer.NF4_LEVELS)# 拆包lopacked0x0Fhi(packed4)0x0F# 交换使 shape 正确indicestorch.stack([lo,hi],dim-1).reshape(shape)# 反量化level[indices] * row_maxw_deqlevels[indices]*row_max.unsqueeze(-1)returnw_deq.to(torch.float16)NF4 把 16-bit 权重压到 4-bit——省 4 倍显存。LLaMA-70B 从 140GB 压到 35GB一张 Ascend 91064GB就能装下。QLoRA 的前向流程# QLoRA 的一层 Forward——冻结层反量化 LoRA 分支 FP16classQLoRALayer(torch.nn.Module):def__init__(self,base_weight_fp16,lora_A,lora_B,nf4_packed,row_max,rank8,alpha16):super().__init__()# 冻结权重——以 NF4 格式存储不参与梯度self.register_buffer(nf4_weight,nf4_packed)self.register_buffer(row_max,row_max)self.out_dim,self.in_dimbase_weight_fp16.shape# LoRA 适配器——FP16参与训练self.lora_Alora_A# [rank, in_dim]self.lora_Blora_B# [out_dim, rank]self.scalealpha/rank# 冻结的原始权重只在 Forward 时反量化# 不存反量化版本——省显存defforward(self,x):# Step 1: NF4 反量化——每次 Forward 都做# 实现里会用融合算子省掉搬来搬去w_deqNF4Quantizer.dequantize(self.nf4_weight,self.row_max,(self.out_dim,self.in_dim))# Step 2: 原始路径——用反量化后的权重base_outtorch.nn.functional.linear(x,w_deq)# Step 3: LoRA 分支——保持 FP16 精度lora_outself.lora_B(self.lora_A(x))*self.scalereturnbase_outlora_out# Forward 做了 1 次反量化 1 次 FP16 MatMul 2 次小 MatMul# 反量化的开销约 0.03ms——比读显存省的时间划算CANN 上的 NF4 融合算子// Ascend C 实现的 NF4 反量化 MatMul 融合——省掉反量化写回classNF4MatMulKernel:publicAscendC::Kernel{__aicore__inlinevoidProcess()override{// Step 1: 加载量化权重——4-bit每次 Tile 读 256 个 NF4 值// 256 个 NF4 值 128 bytes比 FP16 版本的 512 bytes 小 4 倍uint8_t*nf4_ptrgm_nf4tile_offset;// Step 2: 在 L1 上做反量化// 按 level 表查表——用 L1 的 Lookup Table 指令floatlevel_table[16]{-1.0,-0.6962,...,1.5};// 拆包两个 4-bit 取出来// 查表生成 FP16 值——直接在 Vector Unit 上做float16_t deq_values[256];for(inti0;i256;i2){uint8_tbytenf4_ptr[i/2];deq_values[i]level_table[byte0x0F];deq_values[i1]level_table[(byte4)0x0F];}// 乘 row_max——恢复实际值范围for(intj0;j256;j){deq_values[j]*row_max_val;}// Step 3: 反量化完的数据直接进 Cube——不写回 DDR// 省掉 dequantize → DDR → MatMul 的两趟搬运AscendC::MatMul(output,input_local,deq_values,AscendC::CUBE_MATRIX_TYPE::NORMAL);}};QLoRA 在显存受限场景下特别值。LLaMA-70B 用 QLoRA 微调时单卡 Ascend 910 就能跑——显存占用约 42GB35GB 量化权重 5GB LoRA 2GB 中间 Tensor。微调一个下游任务只需 6 小时跟全参微调要 4 卡跑 3 天比省了 40 倍资源。参考仓库QLoRA 微调示例TorchAir 量化微调支持pyasc 量化工具

GQA：多查少算的 Attention 头组合

本文基于昇腾CANN和昇腾NPU，围绕 ops-transformer 仓库的相关技术展开。 MHA（Multi-Head Attention）每个 Head 一套 QKV——8 个 Head 就是 8 组。MQA 省过头了——8 个 Head 共享 K、V。GQA（Grouped Query Attention）…

2026/5/23 20:15:02 阅读更多

电商设计必备字体合集，收藏这篇就够了！

在电商设计中，字体不仅是信息的载体，更是视觉转化的隐形推手——一张海报的点击率、一个详情页的信任感、一个品牌 banner 的高级感，往往都藏在字体的选择里。本期拆解盘点了10款电商设计海报案例，电商设计必备字体，收…

2026/5/23 20:14:19 阅读更多

紧急预警：未覆盖“幻觉漂移”和“上下文坍缩”的AI Agent测试=无效测试！3类高危长周期衰减场景的实时监测方案

更多请点击： https://intelliparadigm.com 第一章：紧急预警：未覆盖“幻觉漂移”和“上下文坍缩”的AI Agent测试无效测试！3类高危长周期衰减场景的实时监测方案 AI Agent在真实业务流中持续运行时，其推理稳定性并非静…

2026/5/23 20:14:19 阅读更多

Unity殖民模拟底层架构：资源管道与任务图谱设计

1. 这不是“又一个Unity模板”，而是一套被真实项目反复验证的殖民模拟底层骨架你有没有试过在Unity里搭一个能跑起来的殖民地模拟游戏？不是那种点一下建个房子、再点一下种棵树的演示Demo，而是真正让几十个角色在地图上自主移动、采集、建造、…

2026/5/24 4:08:37 阅读更多

解决Keil MDK许可证服务器status 4 signal = 348错误

1. 问题现象与背景解析最近在帮客户部署Keil MDK开发环境时，遇到了一个棘手的许可证服务器问题。当尝试通过FlexNet Publisher建立许可证服务器连接时，客户端始终无法正常获取授权。查看服务器端的调试日志时，发现了这样一条关键错误信息&…

2026/5/24 4:05:55 阅读更多

6G超大规模MIMO中MiLAC技术的无损互易优化

1. 项目概述在6G通信系统的演进过程中，超大规模MIMO（Gigantic MIMO）技术面临着硬件实现上的重大挑战。传统数字波束成形架构需要为每个天线配备独立的射频（RF）链和高精度模数转换器（ADC）&#x…

2026/5/24 4:05:55 阅读更多

多芯片系统调试：交叉触发拓扑选型与工程实践

1. 多芯片系统交叉触发拓扑选型指南在复杂SoC设计中，调试多芯片系统面临独特挑战。作为Arm CoreSight技术专家，我处理过数十个采用SoC-600架构的客户案例，发现交叉触发拓扑的选择直接影响调试效率与系统可靠性。本文将深入解析三种典型拓扑的…

2026/5/24 4:05:55 阅读更多

解决SELinux下ARM DS-5文本重定位权限问题

1. 问题现象与背景分析在基于SELinux（Security Enhanced Linux）的Linux发行版上运行ARM DS-5开发工具时，部分应用程序可能会意外终止并显示错误信息"cannot restore segment prot after reloc: Permission denied"。这种情况常见于…

2026/5/24 4:05:35 阅读更多

Claude写代码到底靠不靠谱？实测37个真实开发任务后，我删掉了80%的Copilot订阅

更多请点击： https://kaifayun.com 第一章：Claude写代码到底靠不靠谱？实测37个真实开发任务后，我删掉了80%的Copilot订阅过去三个月，我将Claude 3.5 Sonnet接入日常开发工作流，覆盖Web全栈、CLI工具、数据…

2026/5/24 4:04:33 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/24 0:01:12 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/24 0:02:33 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

2026/5/24 0:01:12 阅读更多

附录 B：术语表

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

2026/5/24 0:02:33 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/23 15:04:07 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/23 12:38:32 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/23 4:55:00 阅读更多

相关文章

GQA：多查少算的 Attention 头组合

电商设计必备字体合集，收藏这篇就够了！

紧急预警：未覆盖“幻觉漂移”和“上下文坍缩”的AI Agent测试=无效测试！3类高危长周期衰减场景的实时监测方案

Unity殖民模拟底层架构：资源管道与任务图谱设计

解决Keil MDK许可证服务器status 4 signal = 348错误

6G超大规模MIMO中MiLAC技术的无损互易优化

多芯片系统调试：交叉触发拓扑选型与工程实践

解决SELinux下ARM DS-5文本重定位权限问题

Claude写代码到底靠不靠谱？实测37个真实开发任务后，我删掉了80%的Copilot订阅

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥