大模型轻量化部署：格式选型（ONNX/GGUF/TFLite） + 压缩三剑客（量化/剪枝/蒸馏）

发布时间：2026/5/28 9:18:27

文章目录大模型格式从训练到部署0. 训练/微调的起点Hugging Face Transformers 格式一、部署推理阶段三种大模型部署格式1.1. 选择合适的部署格式二、模型优化【重点】2.1. **模型压缩让大模型变小、变快**2.1.1. 模型压缩三剑客权重量化、权重剪枝、蒸馏2.1.2. 权重量化在原模型上降精度2.1.3. 权重剪枝在原模型上删连接2.1.4. 知识蒸馏训练一个全新的小模型大模型格式从训练到部署大模型的生命周期通常分为两个阶段训练/微调阶段和部署推理阶段分别对应不同格式。0. 训练/微调的起点Hugging Face Transformers 格式Hugging Face 格式的核心文件config.json model.safetensors / .bin tokenizer 系列文件如下图在 Llama-Factory 导出的完整微调后的大模型。定位工业标准的模型训练和微调的原始格式用于模型训练、微调、评估。特点生态最完整Hugging Face Hub 上有超 16 万模型支持 PyTorch/TensorFlow 后端灵活性最高注意不适合直接部署体积大、推理速度慢需要转换为下方三种部署格式之一转换关系Hugging Face 格式 (原始格式)├── 转换为 GGUF → 用于 llama.cpp / Ollama 等本地 CPU 推理├── 导出为 ONNX → 可进一步转为 TensorRT / OpenVINO / Core ML└── 转换为 TFLite → 用于 Android / 嵌入式设备一、部署推理阶段三种大模型部署格式三种大模型部署时用的文件格式 / 载体ONNX、GGUF与TFLite。真实场景应基于部署设备去选择模型格式主要优势典型适用场景GGUF轻量本地推理首选支持多级量化CPU 内存映射实现秒级加载llama.cpp 原生支持普通电脑消费级 CPU / 低显存 GPU、Ollama、llama.cpp 生态ONNX跨框架兼容好NVIDIA 硬件优化完善兼容好PC / GPU 服务器、边缘设备、需要跨框架迁移的场景TFLite专为移动设备优化Android 生态支持好Android和IoT设备的首选格式体积小、内存占用低补充说明如果你要部署到 iOS / macOS更推荐 Core ML 格式。如果是 NVIDIA 云端 GPU 极致加速可用 TensorRT (.engine)它通常通过 ONNX 转换得到。例如 ONNX 格式的大模型https://www.modelscope.cn/models/onnx-community/Qwen3-0.6B-ONNX例如 TFLite 格式的大模型https://www.modelscope.cn/models/google/gemma-1.1-2b-it-tflite1.1. 选择合适的部署格式iOS Core ML (优先使用ANE)Android TFLite Hexagon Delegate 或 ONNX Runtime Mobile二、模型优化【重点】如果部署后发现模型运行效率低、或模型太大需要进一步压缩模型。注选择模型时尽量选择已经蒸馏、剪枝完的模型避免自己再进行蒸馏。模型的进一步压缩的目标在尽量不牺牲精度的前提下让AI模型跑得更快、更省、更远。2.1.模型压缩让大模型变小、变快基础知识了解最重要的概念模型文件里装的是什么1. 下载的模型文件几个 GB里面装的是无数个数字权重。没有文字、没有知识库从头到尾就只有一大堆普通小数比如 0.25、1.36、-0.78 这种。AI 所有的聪明、会说话、懂知识全靠这堆数字撑起来。2. 7B70亿参数就是整整70亿个这种数字参数就是一个单独的数字7B 模型直白说文件里老老实实存了70亿个独立数字。3. 重点每个数字代表神经元之间「连接的重要程度」把神经网络想成无数个节点神经元互相拉线连起来每两根神经元之间有一根连线每一根连线对应一个数字这个数字多大就代表这根连线影响力有多强数字大这条通路很重要信号优先走这里数字小这条通路不重要几乎不起作用负数起到抑制、抵消的作用简单说一个数字一根神经连线的强弱等级。模型学知识的过程就是自动把这70亿个数字调到最合适的大小固定下来存进文件。4. 微调调整这些数字模型出厂自带一套默认70亿个数字是通用能力。微调不改变网络结构只少量修改里面一部分数字改完之后神经连线的强弱变了模型就专门擅长某一件事比如写文案、做客服、懂行业术语。5. 量化压缩这些数字的精度原本每个数字精度很高占用字节多文件大、耗显存。量化就是不改变数字大致大小只降低它的精细度比如原本是超高精度小数改成普通精度整数数字还能用、模型智商几乎没变但文件变小、跑得更快。核心一句话总结只记数字模型里全是海量普通数字名字叫权重一个数字对应一条神经连线的强弱70亿参数 70亿个控制连线强弱的数字微调改这些数字量化压缩这些数字的精细度。大模型推理执行流程你输入中文问题⬇️【第一步】分词器 Tokenizer汉字 / 词语 →逐字转换为整数数字编号示例你好➡️对应转换成编号[1024, 2048]⬇️【第二步】嵌入编码 Embedding将每一个数字编号分别转换为专属语义向量一串小数你 1024 → 向量 [0.15, -0.27, 0.63……]好 2048 → 向量 [0.22, 0.51, -0.33……]⬇️【第三步】进入模型权重计算输入向量和模型内几十亿权重数字做矩阵运算⬇️【第四步】自动激活相关权重和问题语义相关的权重 → 自动激活、参与主导计算无关的权重 → 抑制弱化、不参与主导⬇️【第五步】预测下一字概率依靠激活的权重运算逐个算出后续汉字的概率⬇️【第六步】分词器解码转文字概率数字 → 反向翻译还原为中文汉字⬇️输出 AI 最终回答**接下来先继续了解概念**什么是神经网络、什么是权重**1. 先认识一下什么是神经网络简单说神经网络就是一张由“圆圈”和“连线”组成的网圆圈神经元可以想象成一个小计算器连线连接神经元之间的通道它的工作方式给你看一张猫的图片信息从左边进入依次流过每一层的**“神经元”和它们之间的“连接”**一层接一层直到最右边输出结果——“这是猫”。打个比方就像一条工厂流水线。原料图片从入口进入经过一道道工序神经元层每道工序的工人之间用手递材料连接最后产品判断结果从出口出来。“学习”是什么意思就是不断调整每条“连线”上的数字让最终输出越来越准。这些数字就是下面要讲的权重。2. 什么叫“权重”Weight这个名字来自一个非常生活化的类比想象你要决定“今晚吃什么”。朋友说“火锅好吃”权重 0.7—— 很重要你说“太辣了”权重 0.3—— 不太重要最后你说“今天太累”权重 0.1—— 基本忽略每个因素都有一个重要性程度或者叫**“加权值”。数值越大这个因素在最终决策中的“分量越重”**。在神经网络里完全一样输入A → 乘以权重0.9 → 对结果影响很大权重高输入B → 乘以权重0.1 → 对结果影响很小权重低所以这些可调的数字就叫做权重——因为它们决定了每个输入信号的“分量”。2.1.1. 模型压缩三剑客权重量化、权重剪枝、蒸馏1. 权重量化(Quantization)【类比有一把毫米级精度的尺子实际用不到这么大的精度权重量化就是把精度调低】2. 权重剪枝(Pruning)【剪掉可有可无的连接例如剪掉权重值小于0.01的连接类比剪掉多余的树枝操作简单一行代码搞定】3. 知识蒸馏(Knowledge Distillation)【大模型当老师教小模型只学“解题思路”不背“全部细节”。例如用整本百科全书大模型的考试要点训练一本小手册小模型达到同等考试水平】在实际工业应用中这三者经常组合使用先用知识蒸馏训练一个小模型学生再对这个学生模型做剪枝去掉不重要的连接最后做量化降低数值精度。三种模型优化比较2.1.2. 权重量化在原模型上降精度参考来源https://cloud.tencent.com/developer/article/2546431在部署推理时量化只在加载到显存/内存的那一刻才转成 INT8不改变原模型文件。# 案例将 FP32 转为 INT8/INT4 等低位精度加载到内存/显存中。fromtransformersimportAutoModelForCausalLM,AutoTokenizer,BitsAndBytesConfig# 8-bit 量化配置quantization_configBitsAndBytesConfig(load_in_8bitTrue,# 加载时将 FP32/FP16 权重转为 INT8减少约一半显存)# 模型 IDQwen 最小开源模型约 0.6B 参数model_idQwen/Qwen3-0.6B# 以 8-bit 精度加载模型modelAutoModelForCausalLM.from_pretrained(model_id,quantization_configquantization_config,# 使用上面定义的 8-bit 配置device_mapauto# 自动分配到可用的 GPU/CPU)# 加载对应的分词器tokenizerAutoTokenizer.from_pretrained(model_id)如果 Hugging Face 下载慢可以换成 ModelScope 魔塔的加载方式frommodelscopeimportAutoModelForCausalLM,AutoTokenizerfromtransformersimportBitsAndBytesConfig# 8-bit 量化配置quantization_configBitsAndBytesConfig(load_in_8bitTrue,# 加载时转为 INT8 精度)# 模型 IDModelScope 路径model_idqwen/Qwen3-0.6B# 以 8-bit 精度加载模型modelAutoModelForCausalLM.from_pretrained(model_id,quantization_configquantization_config,# 8-bit 量化device_mapauto# 自动分配设备)# 加载分词器tokenizerAutoTokenizer.from_pretrained(model_id)2.1.3. 权重剪枝在原模型上删连接直接修改原模型的权重矩阵生成新模型文件。删除不重要的权重连接以减小模型规模。可用 torch.nn.utils.prune 实现。importtorchimporttorch.nn.utils.pruneasprunefromtransformersimportAutoModelForCausalLM# 1. 加载需要裁剪的模型Qwen 最小开源模型model_idQwen/Qwen3-0.6BmodelAutoModelForCausalLM.from_pretrained(model_id,torch_dtypetorch.float32,# 剪枝需要 fp32 精度device_mapauto)# 2. 开始剪枝对第一层 Transformer 的注意力输出投影做 30% 随机剪枝prune.random_unstructured(model.model.layers[0].self_attn.o_proj,# Qwen3 的层名nameweight,# 裁剪权重amount0.3# 裁剪30%)# 3. 验证稀疏度sparsity(model.model.layers[0].self_attn.o_proj.weight0).float().mean()print(f稀疏度:{sparsity:.2%})# 4. 固化剪枝结果并保存prune.remove(model.model.layers[0].self_attn.o_proj,weight)model.save_pretrained(./qwen0.6b-pruned)2.1.4. 知识蒸馏训练一个全新的小模型训练一个全新的小模型模仿大模型的行为。# 简化伪代码teacher_logitsteacher(input_ids).logits# 老师大模型student_logitsstudent(input_ids).logits# 学生小模型# 本质是让学生模仿老师的“思考方式”输出概率而非仅背答案# 实际使用时建议加入温度参数 T 软化分布学习效果更好lossnn.KLDivLoss()(F.log_softmax(student_logits),# 学生侧log-概率F.softmax(teacher_logits)# 老师侧概率分布)

Ubuntu 20.04 新手避坑：刚装完系统就报错‘ifconfig command not found’？5分钟搞定镜像源和工具安装

Ubuntu 20.04 新手避坑指南：从"ifconfig not found"到系统配置全掌握刚装好Ubuntu 20.04的兴奋感还没消退，终端里输入ifconfig却跳出"command not found"的红色警告——这可能是很多Linux新手遇到的第一个"欢迎仪式"。别担…

2026/5/28 9:18:27 阅读更多

十天入门Allegro 17.4

VIP用户可以用PC浏览器下载pdf文档，非VIP用户可电邮14518918qq.com索取图文版pdf甚至双层板的dsn/brd。 Candence可以简单看成两部分软件，画原理图的Orcad，和画PCB的Allegro。Orcad画原理图相对简单，这里不再赘述，大概…

2026/5/28 9:18:27 阅读更多

JetBrains IDE 试用期重置终极指南：轻松恢复30天免费使用

JetBrains IDE 试用期重置终极指南：轻松恢复30天免费使用【免费下载链接】ide-eval-resetter 项目地址: https://gitcode.com/gh_mirrors/id/ide-eval-resetter 还在为 JetBrains 系列 IDE（如 IntelliJ IDEA、PyCharm、WebStorm 等）…

2026/5/28 9:18:07 阅读更多

Minecraft红石垃圾桶：自动化销毁物品的入门级红石装置

1. 项目概述：为什么我们需要一个红石垃圾桶？在Minecraft的生存模式里玩久了，你的背包和箱子迟早会被各种“垃圾”塞满——挖矿挖出来的大量圆石和安山岩、刷怪塔产出的腐肉和箭矢、清理背包时多出来的工具和装备。手动把它们拖出来扔掉&#…

2026/5/28 13:30:10 阅读更多

曲线轨迹SAR成像：GCBP算法与二维自聚焦技术详解

1. 项目概述：曲线轨迹SAR成像的挑战与GCBP算法在合成孔径雷达（SAR）成像领域，我们一直在追求更高的分辨率和更复杂的观测模式。传统的SAR系统通常假设雷达平台沿直线飞行，这使得基于“停-走-停”模型和距离多普勒原理的…

2026/5/28 13:29:26 阅读更多

5分钟解锁Mac超能力：用Whisky无缝运行Windows应用

5分钟解锁Mac超能力：用Whisky无缝运行Windows应用【免费下载链接】Whisky A modern Wine wrapper for macOS built with SwiftUI 项目地址: https://gitcode.com/gh_mirrors/wh/Whisky 还在为Mac上无法运行某个心仪的Windows软件而烦恼吗？或者想…

2026/5/28 13:29:26 阅读更多

FreeGPT WebUI：无需API密钥的GPT 3.5/4开源聊天解决方案

FreeGPT WebUI：无需API密钥的GPT 3.5/4开源聊天解决方案【免费下载链接】freegpt-webui GPT 3.5/4 with a Chat Web UI. No API key required. 项目地址: https://gitcode.com/gh_mirrors/fr/freegpt-webui FreeGPT WebUI是一个基于Flask和JavaScript构建的…

2026/5/28 13:28:43 阅读更多

电源动态测试到底有没有必要？负载固定为什么还要测瞬态响应？（工程师必看）

一、先搞懂：什么是电源动态测试？1.1 基础定义电源动态测试，也常被称为负载瞬态响应测试，是相对于静态测试的核心电源可靠性测试项目。简单总结：静态测试看电源“稳稳工作”的时候好不好动态测试看电源“突发工况”…

2026/5/28 13:28:43 阅读更多

OpenCV实战：手把手教你用GMM（高斯混合模型）实现证件照背景替换与抠图

OpenCV实战：用GMM实现智能证件照背景替换的完整指南在数字图像处理领域，证件照背景替换一直是个高频需求场景。传统方法依赖手动抠图或简单色键技术（如绿幕），但往往存在边缘锯齿、发丝处理不自然等问题。本文将介绍一种…

2026/5/28 13:28:22 阅读更多

大模型核心加速器：KV Cache 如何将 O(n²) 计算复杂度降至 O(n)？

KV Cache 是大模型自回归生成任务的关键优化技术，通过“空间换时间”策略缓存历史 Key 和 Value 向量，将推理复杂度从 O(n) 降至 O(n)。文章阐述了语义缓存与前缀精确匹配两种核心范式，深入分析了 KV Cache 的技术底层原理、工程化应用及规模…

2026/5/28 0:00:48 阅读更多

物流系统如何打通信息孤岛？哲盟软件系统：一键打通内外部数据壁垒

在数字化转型加速的今天，物流企业面临的最大痛点之一就是信息孤岛——ERP、电商平台、智能硬件、OMS/TMS/WMS等系统各自为政，数据无法自由流转，导致人工操作繁琐、效率低下、出错率高。特别是在跨境物流领域，亚马逊、Shopee、TikT…

2026/5/28 0:02:48 阅读更多

Windows Defender终极恢复指南：5种强力方法解决禁用问题

Windows Defender终极恢复指南：5种强力方法解决禁用问题【免费下载链接】no-defender A slightly more fun way to disable windows defender firewall. (through the WSC api) 项目地址: https://gitcode.com/GitHub_Trending/no/no-defender 当你的Windo…

2026/5/28 0:04:54 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/28 4:33:02 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/28 3:32:24 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/28 3:32:25 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/27 20:16:23 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/27 15:51:09 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/28 13:05:45 阅读更多

相关文章