智能体压缩技术:让强大的 Agent 模型跑在边缘设备上 智能体压缩技术让强大的 Agent 模型跑在边缘设备上关键词智能体压缩边缘计算大语言模型量化剪枝知识蒸馏边缘推理摘要近年来以GPT-4VAutoGPT、多模态大模型Agent为代表的自主智能系统Agent异军突起它们能够像人类一样“理解需求→制定计划→调用工具→执行任务→反思调整”完成复杂的办公、科研、家庭自动化等工作。但随之而来的问题是这类Agent模型动辄包含数千亿乃至上万亿参数需要消耗数百GB显存、数万瓦算力、数毫秒到数秒的推理延迟只能部署在云端数据中心。这不仅带来了隐私泄露风险用户数据必须上传云端、高延迟问题自动驾驶、工业机器人这类场景毫秒级延迟都致命还会产生昂贵的云服务成本。那有没有办法把这些“大块头”Agent模型“减肥瘦身”变得像“小麻雀”一样轻巧但还能保留“五脏俱全”的核心能力甚至能跑在手机、手表、摄像头、自动驾驶小芯片、工业传感器这类边缘设备上呢答案是肯定的——这就是智能体压缩技术。本文将像给小学生讲故事一样一步一步带你了解为什么Agent模型这么“胖”边缘设备又为什么“装不下、跑不动”智能体压缩的核心“减肥秘籍”——剪枝、量化、知识蒸馏、架构搜索等这些“秘籍”怎么组合起来用才能效果最好有没有现成的项目案例可以跟着玩未来的智能体压缩技术会变成什么样。读完这篇文章你不仅能搞懂智能体压缩的原理还能自己动手写一个简单的压缩版小Agent部署在树莓派上试试背景介绍为什么要让Agent“搬家”到边缘目的和范围本文的目的是让读者从初学者到有一定经验的AI/边缘计算从业者全面理解智能体压缩技术的核心原理、常用方法、组合策略、实现步骤和应用场景。为了让内容既生动又专业我们会用生活中的“减肥瘦身”类比解释核心概念用树莓派压缩版轻量多模态Agent做实战项目分析工业界最前沿的压缩技术案例比如Meta的Llama Edge、Google的Gemini Nano、华为的昇腾MindSpore Lite展望未来5-10年的智能体压缩发展趋势。预期读者初学者对AI、大模型、边缘计算感兴趣的大学生、高中生技术爱好者喜欢折腾树莓派、ESP32、手机等边缘设备的极客AI/边缘计算从业者需要在边缘设备部署AI应用的工程师、架构师产品经理需要规划边缘AIAgent产品的产品经理。文档结构概述本文的结构就像我们“帮一个胖家伙大模型Agent减肥然后让他搬家到小房子边缘设备里”的过程第一部分背景介绍先了解这个“胖家伙”有多胖小房子有多小搬家有多重要第二部分核心概念与联系认识一下“减肥瘦身”需要用到的工具和步骤第三部分核心算法原理 具体操作步骤详细讲解每一种“减肥工具”剪枝、量化、知识蒸馏、架构搜索的原理和使用方法第四部分数学模型和公式 详细讲解 举例说明用简单的数学公式解释这些“减肥工具”为什么有效第五部分项目实战动手实践用Llama 3 8B的压缩版量化到4bit LangChain Lite 树莓派4做一个能识别图片、查询天气、开关灯的轻量多模态Agent第六部分实际应用场景看看现在工业界已经把压缩版Agent用在了哪些地方第七部分工具和资源推荐整理了一堆好用的压缩工具、数据集、学习资源第八部分未来发展趋势与挑战聊聊未来的智能体压缩技术会有什么新花样还有哪些难题要解决第九部分总结回顾一下我们帮胖家伙搬家的整个过程第十部分思考题留几个小问题让大家动动脑筋第十一部分附录解答一些常见问题推荐一些扩展阅读。术语表核心术语定义自主智能系统Agent就像一个“虚拟助手小管家”它能够自己理解用户的需求自己制定计划自己调用工具比如搜索、计算器、摄像头、开关自己执行任务自己反思哪里做得不好并调整。大语言模型LLM是Agent的“大脑核心”它像一个“超级会看书、会说话、会思考的书虫”被喂了互联网上几乎所有的公开文本数据能够生成人类能看懂的文字回答各种问题制定各种计划。多模态大模型MLLM是升级版的LLM不仅能看懂文字还能看懂图片、视频听懂音频甚至能生成图片、视频、音频。边缘设备就像我们身边的“小房子”比如手机、手表、智能摄像头、自动驾驶小芯片比如特斯拉FSD芯片、地平线征程芯片、工业传感器、树莓派、ESP32等它们的特点是计算能力弱、存储空间小、电池电量有限、网络连接不稳定但好处是离用户/数据近、延迟低、隐私性好、成本低。边缘计算就是把“计算任务”从云端数据中心搬到“边缘设备”或者“离边缘设备很近的边缘服务器”上做就像把“超市的仓库”搬到“小区的便利店”里买东西更快更方便。智能体压缩技术就是帮“大模型Agent这个胖家伙”减肥的技术让它的“体积变小”参数变少、存储空间变小、“体重变轻”算力消耗变少、推理延迟变低、电池消耗变少但还能保留“核心功能”理解需求、制定计划、调用工具、执行任务。相关概念解释参数Parameter是大模型Agent大脑里的“神经元连接权重”就像我们人类大脑里的“神经突触”数量越多大脑越“聪明”但也越“胖”。比如GPT-4V有大概1.8万亿参数Llama 3 8B有80亿参数Llama 3 70B有700亿参数。推理Inference是大模型Agent“思考并回答问题”的过程就像我们人类“看到一个问题动脑子想然后说出答案”的过程。推理时需要消耗算力、显存、内存、电池参数越多推理越慢消耗越大。训练Training是大模型Agent“学习知识”的过程就像我们人类“上学读书、学习各种技能”的过程。训练时需要消耗巨大的算力、显存、内存、电力通常需要在云端数据中心用成百上千张GPU/TPU训练几个月甚至几年。微调Fine-tuning是大模型Agent“针对特定任务学习”的过程就像我们人类“已经大学毕业了现在要针对医生、律师、程序员这些特定职业再学习一段时间”的过程。微调时消耗的算力比训练少很多但通常还是需要在云端做。量化Quantization是一种“减肥方法”把大模型Agent大脑里的“神经元连接权重”从高精度的浮点数比如32位浮点数FP32能表示非常非常小的数和非常非常大的数变成低精度的整数比如8位整数INT84位整数INT4就像把“用公斤秤称东西”改成“用两秤称东西”重量单位变小了整体重量自然就变轻了但可能会有一点点误差不过如果误差不大我们还是能接受的。剪枝Pruning也是一种“减肥方法”把大模型Agent大脑里“没用的神经突触”剪掉就像把“树上没用的树枝剪掉”剩下的树枝就能更好地吸收养分结出更多的果实。知识蒸馏Knowledge Distillation是一种“老师教学生”的减肥方法让“大模型Agent这个胖老师”教“小模型Agent这个瘦学生”学习把胖老师的“知识”不仅是答案还有思考过程传给瘦学生让瘦学生虽然小但也能像胖老师一样“聪明”。神经架构搜索Neural Architecture Search, NAS是一种“自动设计小模型”的减肥方法让电脑自己去搜索、设计一个“体积小、能力强”的小模型Agent架构就像让“建筑设计师”自己去设计一个“面积小、但功能齐全、住起来舒服”的小房子。缩略词列表缩略词全称中文解释AgentAutonomous Agent自主智能系统LLMLarge Language Model大语言模型MLLMMultimodal Large Language Model多模态大模型Edge AIEdge Artificial Intelligence边缘人工智能FP3232-bit Floating Point32位浮点数FP1616-bit Floating Point16位浮点数BF16BFloat1616位浮点数Google为TPU设计的INT88-bit Integer8位整数INT44-bit Integer4位整数W8A8Weight 8-bit Activation 8-bit权重8位激活值8位量化W4A8Weight 4-bit Activation 8-bit权重4位激活值8位量化GPTQGenerative Pre-trained Transformer Quantization生成式预训练Transformer量化方法AWQActivation-aware Weight Quantization激活值感知的权重量化方法LoRALow-Rank Adaptation低秩适配微调方法也可以配合压缩使用QLoRAQuantized Low-Rank Adaptation量化低秩适配NASNeural Architecture Search神经架构搜索ONNXOpen Neural Network Exchange开放神经网络交换格式TensorRTNVIDIA TensorRTNVIDIA的深度学习推理加速引擎TFLiteTensorFlow LiteGoogle的TensorFlow边缘推理框架MindSpore Lite华为昇腾MindSpore Lite华为的边缘推理框架ONNX RuntimeMicrosoft ONNX Runtime微软的ONNX推理框架核心概念与联系减肥瘦身的“工具包”和“步骤图”故事引入让我们先讲一个**“胖企鹅搬家记”的小故事来深入浅出地引出本文的主题在南极的冰山上住着一只超级胖的大企鹅**它的名字叫GPT-4V-Agent。它的体重有1.8吨对应1.8万亿参数的大模型每天要吃1000公斤鱼对应云端数据中心数万瓦的电力住的房子是冰山上最大的冰屋对应数百GB的显存和内存。它是整个南极最聪明的企鹅能帮其他企鹅识别鱼的种类、制定捕鱼计划、用渔网捕鱼、反思今天的捕鱼成果。但是最近南极的气候变暖了冰山上的大冰屋快要融化了。其他企鹅提议“我们搬到海边的小洞穴里住吧小洞穴离海近捕鱼更快而且不会融化”可是GPT-4V-Agent这只大企鹅太胖了根本钻不进小洞穴而且小洞穴里只有10公斤鱼的存储空间没有那么多鱼给它吃这可怎么办呢其他企鹅找来了南极的减肥专家它的名字叫压缩博士。压缩博士说“别担心我有一个减肥瘦身工具包里面有四种神奇的工具剪枝剪刀把你身上没用的脂肪剪掉量化体重秤把你的体重从‘吨’改成‘公斤’甚至‘斤’来记录虽然精度会有点下降但你还是能正常走路、捕鱼知识蒸馏魔法棒让你把你的‘聪明才智’传给一只瘦企鹅宝宝让它虽然小但也能像你一样识别鱼、制定计划、捕鱼神经架构搜索建筑师帮瘦企鹅宝宝设计一个‘最适合小洞穴居住、捕鱼能力最强’的身体结构。”经过压缩博士的一番努力GPT-4V-Agent把它的聪明才智传给了一只叫Llama-3-8B-INT4-Lite-Agent的瘦企鹅宝宝。瘦企鹅宝宝的体重只有1.8公斤对应1.8GB左右的压缩后模型大小每天只吃0.1公斤鱼对应树莓派4几瓦的电力轻松钻进了小洞穴而且它的捕鱼能力虽然比大企鹅弱一点点但足够帮其他企鹅完成日常的捕鱼任务其他企鹅都开心极了它们搬到了小洞穴里过上了幸福的生活这个小故事里的大企鹅GPT-4V-Agent就是云端部署的大模型Agent小洞穴就是边缘设备压缩博士就是我们这些研究智能体压缩技术的人剪枝剪刀、量化体重秤、知识蒸馏魔法棒、神经架构搜索建筑师就是智能体压缩的核心方法瘦企鹅宝宝Llama-3-8B-INT4-Lite-Agent就是边缘部署的压缩版Agent。核心概念解释像给小学生讲故事一样刚才的小故事里提到了四种核心的“减肥工具”接下来我们就用生活中的例子更详细地解释一下这四种工具以及它们怎么和Agent的“大脑核心”LLM/MLLM、“手脚”工具调用模块、“眼睛耳朵”感知模块配合使用。核心概念一剪枝Pruning—— 剪掉树上没用的树枝剪枝就像修剪果树果树上有很多树枝有些树枝长得很茂盛能结很多果实对应大模型里重要的神经元连接权重有些树枝长得很细弱根本结不了果实甚至还会吸收其他树枝的养分对应大模型里不重要的神经元连接权重果农会把没用的细弱树枝剪掉剩下的树枝就能更好地吸收养分结出更多更好的果实。大模型里的剪枝也是一样的大模型里有数千亿乃至上万亿个神经元连接权重研究人员发现其实90%以上的神经元连接权重都是没用的剪掉它们之后大模型的能力几乎不会下降甚至有时候还会因为减少了“噪声”而变得更好剪枝的方法有很多种比如非结构化剪枝随便剪掉没用的单个神经元连接权重就像随便剪掉树上的一片叶子或者一根细枝结构化剪枝剪掉一整层没用的神经元或者一整组没用的神经元连接权重就像剪掉树上的一整根粗树枝** Lottery Ticket Hypothesis彩票假设剪枝**在大模型里找到一张“中奖彩票”——一个很小的子网络这个子网络如果用和大模型一样的初始权重重新训练就能达到和大模型几乎一样的能力。核心概念二量化Quantization—— 把公斤秤改成两秤量化就像买菜时用的秤如果你要买一辆汽车你需要用吨秤对应32位浮点数FP32它的精度很高能准确称出汽车的重量如果你要买一公斤苹果你需要用公斤秤对应16位浮点数FP16/BF16它的精度虽然比吨秤低但足够称出一公斤苹果的重量如果你要买一两茶叶你需要用两秤对应8位整数INT8它的精度虽然比公斤秤低但足够称出一两茶叶的重量如果你要买几颗花椒你甚至可以用数个数的方法对应4位整数INT4它的精度虽然很低但足够知道你买了几颗花椒。大模型里的量化也是一样的大模型里的神经元连接权重和推理时的激活值就是神经元“思考”时产生的中间结果原本都是用32位浮点数FP32存储和计算的研究人员发现其实不需要这么高的精度用16位浮点数FP16/BF16、8位整数INT8甚至4位整数INT4就足够让大模型正常工作了量化的方法有很多种比如训练后量化Post-Training Quantization, PTQ大模型已经训练好了我们直接把它的权重和激活值量化成低精度的就像已经买好了一公斤苹果我们直接用两秤重新称一下量化感知训练Quantization-Aware Training, QAT在大模型训练或者微调的时候就假装它的权重和激活值是低精度的让它适应低精度的误差就像在种苹果的时候就让苹果适应“用两秤称”的环境这样长出来的苹果用两秤称就会更准确GPTQ、AWQ等专门针对Transformer大模型的量化方法这些方法考虑了Transformer大模型的特殊结构比如注意力机制能在4bit量化的情况下几乎不损失大模型的能力。核心概念三知识蒸馏Knowledge Distillation—— 胖老师教瘦学生知识蒸馏就像大学教授教小学生大学教授对应大模型Agent这个胖老师懂很多很多知识不仅能告诉小学生“这道题的答案是什么”还能告诉小学生“这道题的思考过程是什么”“这道题为什么选A不选B”小学生对应小模型Agent这个瘦学生虽然懂的知识不多但如果大学教授把“思考过程”也教给小学生小学生就能更快地学会知识甚至能像大学教授一样解决很多问题这里的“思考过程”就是大学教授给出的**“软标签”Soft Label**——不是只有“对”或“错”的“硬标签”Hard Label而是“这道题选A的概率是90%选B的概率是8%选C的概率是1%选D的概率是1%”的概率分布。大模型里的知识蒸馏也是一样的我们把云端部署的大模型Agent叫做**“教师模型”Teacher Model**我们把要部署在边缘设备上的小模型Agent叫做**“学生模型”Student Model**我们让教师模型生成**“软标签”**不仅是最终的回答还有回答的概率分布调用工具的概率分布制定计划的概率分布我们让学生模型同时学习**“硬标签”真实的答案和“软标签”**教师模型的思考过程这样学生模型虽然小但也能学到教师模型的“核心知识”和“思考方式”能力会比只学习硬标签的小模型强很多。核心概念四神经架构搜索NAS—— 自动设计小房子神经架构搜索就像自动设计小房子的建筑设计师我们告诉建筑设计师“我要一个面积只有10平方米的小房子但它必须有卧室、厨房、卫生间、客厅四个功能区而且住起来要舒服、采光要好、通风要好”建筑设计师会自动搜索、设计成千上万种小房子的结构然后从中选出最好的一种这里的“小房子的结构”就是神经网络的架构比如有多少层神经元每层有多少个神经元神经元之间怎么连接。大模型里的神经架构搜索也是一样的我们告诉NAS算法“我要一个参数只有10亿的小模型Agent但它必须有理解需求、制定计划、调用工具、执行任务四个核心功能而且推理延迟要小于100ms、准确率要大于90%”NAS算法会自动搜索、设计成千上万种神经网络的架构然后从中选出最好的一种现在的NAS算法已经非常先进了比如Once-for-AllOFANAS它能一次训练一个“超级网络”然后从超级网络里剪出成千上万种不同大小的子网络这些子网络可以部署在不同性能的边缘设备上比如手机可以用大一点的子网络手表可以用小一点的子网络。核心概念五Agent的核心模块—— 小麻雀的五脏六腑刚才我们讲的都是怎么“减肥”Agent的“大脑核心”LLM/MLLM但Agent其实是一个完整的系统就像小麻雀一样“五脏俱全”除了“大脑核心”还有感知模块就像小麻雀的“眼睛、耳朵、鼻子”负责感知周围的环境比如识别图片、视频听懂音频读取传感器数据记忆模块就像小麻雀的“大脑记忆区”负责存储用户的历史对话、历史任务执行结果、周围的环境信息规划模块就像小麻雀的“大脑思考区”负责理解用户的需求制定详细的任务执行计划工具调用模块就像小麻雀的“手脚”负责调用各种工具比如搜索、计算器、摄像头、开关、数据库反思模块就像小麻雀的“大脑反思区”负责反思今天的任务执行结果调整明天的计划。这些模块也需要压缩才能让整个Agent系统“跑在边缘设备”上。比如感知模块里的图片识别模型可以用MobileNet、EfficientNet-Lite这些专门为边缘设备设计的轻量模型记忆模块可以用向量数据库的轻量版本比如ChromaDB Lite、FAISS Lite或者甚至用简单的哈希表规划模块、工具调用模块、反思模块可以和“大脑核心”LLM/MLLM一起压缩或者甚至用规则引擎代替如果任务比较简单的话。核心概念之间的关系用小学生能理解的比喻刚才我们讲了五种核心概念剪枝、量化、知识蒸馏、NAS、Agent的核心模块接下来我们就用**“帮胖企鹅减肥搬家到小洞穴”的过程**来解释一下这些概念之间的关系。概念一和概念二的关系剪枝和量化如何合作剪枝和量化就像**“先剪掉树上没用的树枝再把剩下的树枝砍成小段”**先剪枝剪掉树上没用的细弱树枝剩下的都是有用的粗树枝后量化把剩下的粗树枝砍成小段这样更容易搬运到小洞穴里这两个步骤的顺序很重要先剪枝后量化的效果通常比先量化后剪枝好因为先剪枝可以去掉没用的权重减少量化的误差。概念二和概念三的关系量化和知识蒸馏如何合作量化和知识蒸馏就像**“先让大学教授把知识教给小学生再让小学生适应‘用两秤称东西’的环境”**先知识蒸馏让大学教授大模型把知识教给小学生小模型后量化让小学生小模型适应量化的误差或者也可以在知识蒸馏的同时进行量化量化感知知识蒸馏这样小学生小模型可以同时学习知识和适应量化的误差效果会更好。概念三和概念四的关系知识蒸馏和NAS如何合作知识蒸馏和NAS就像**“先让建筑设计师设计一个最好的小房子结构再让大学教授把知识教给住在这个小房子里的小学生”**先NAS让建筑设计师NAS算法设计一个最好的小房子结构最好的小模型架构后知识蒸馏让大学教授大模型把知识教给住在这个小房子里的小学生小模型或者也可以在NAS的同时进行知识蒸馏知识蒸馏引导的NAS这样建筑设计师NAS算法在设计小房子结构的时候会考虑到“这个小房子里的小学生能不能学会大学教授的知识”设计出来的小房子结构会更好。概念一、二、三、四和概念五的关系剪枝、量化、知识蒸馏、NAS如何和Agent的核心模块合作剪枝、量化、知识蒸馏、NAS就像**“帮胖企鹅减肥的工具”而Agent的核心模块就像“胖企鹅的五脏六腑”**我们首先用NAS帮胖企鹅设计一个最适合小洞穴居住的身体结构最好的Agent系统架构然后我们用知识蒸馏让胖企鹅把它的聪明才智传给住在这个新身体里的瘦企鹅宝宝最好的小模型Agent接着我们用剪枝剪掉瘦企鹅宝宝身上没用的脂肪没用的神经元连接权重最后我们用量化把瘦企鹅宝宝的体重从‘吨’改成‘斤’来记录把权重和激活值量化成低精度的这样瘦企鹅宝宝压缩版Agent就能轻松钻进小洞穴边缘设备正常地走路、捕鱼完成各种任务了核心概念原理和架构的文本示意图专业定义为了让大家更清晰地理解这些核心概念之间的关系我们画了一个文本示意图┌─────────────────────────────────────────────────────────────────────────────────────────┐ │ 智能体压缩技术的整体架构图 │ ├─────────────────────────────────────────────────────────────────────────────────────────┤ │ │ │ 输入用户需求文字、图片、音频、传感器数据 │ │ ↓ │ │ ┌───────────────────────────────────────────────────────────────────────────────────┐ │ │ │ 压缩版Agent系统边缘部署 │ │ │ ├───────────────────────────────────────────────────────────────────────────────────┤ │ │ │ 1. 压缩版感知模块MobileNet/EfficientNet-Lite/剪枝/量化→ 环境感知 │ │ │ │ ↓ │ │ │ │ 2. 压缩版记忆模块ChromaDB Lite/FAISS Lite/简单哈希表→ 存储历史信息 │ │ │ │ ↓ │ │ │ │ 3. 压缩版规划/反思/工具调用模块核心→ 理解需求/制定计划/反思调整/调用工具 │ │ │ │ └── 压缩版LLM/MLLMNAS/知识蒸馏/剪枝/量化← 教师模型云端大模型Agent │ │ │ │ ↓ │ │ │ │ 4. 压缩版执行模块 → 执行任务比如开关灯、发送消息 │ │ │ └───────────────────────────────────────────────────────────────────────────────────┘ │ │ ↓ │ │ 输出任务执行结果文字、图片、音频、动作 │ │ │ └─────────────────────────────────────────────────────────────────────────────────────────┘这个文本示意图的意思是输入用户通过文字、图片、音频、传感器数据等方式向压缩版Agent系统发出需求压缩版感知模块压缩版Agent系统首先用压缩版感知模块比如MobileNet、EfficientNet-Lite或者经过剪枝、量化的大模型感知模块感知周围的环境压缩版记忆模块然后压缩版Agent系统用压缩版记忆模块比如ChromaDB Lite、FAISS Lite或者简单的哈希表存储用户的历史对话、历史任务执行结果、周围的环境信息压缩版规划/反思/工具调用模块核心接着压缩版Agent系统用核心模块压缩版LLM/MLLM理解用户的需求、制定详细的任务执行计划、反思之前的任务执行结果、调用各种工具这里的压缩版LLM/MLLM是通过NAS、知识蒸馏、剪枝、量化等方法得到的它的“老师”是云端部署的大模型Agent压缩版执行模块然后压缩版Agent系统用压缩版执行模块执行任务输出最后压缩版Agent系统把任务执行结果文字、图片、音频、动作反馈给用户。Mermaid 流程图智能体压缩的整体流程为了让大家更清晰地理解智能体压缩的整体流程我们画了一个Mermaid流程图注意Mermaid流程节点中没有括号、逗号等特殊字符是否获取云端大模型Agent神经架构搜索NAS设计小模型Agent架构知识蒸馏KD得到预训练小模型Agent剪枝Pruning得到剪枝后的小模型Agent量化Quantization得到量化后的小模型Agent压缩Agent的其他模块得到完整的压缩版Agent系统边缘设备部署测试压缩版Agent系统效果是否满足要求上线使用调整压缩策略这个Mermaid流程图的意思是首先我们获取一个已经训练好的云端大模型Agent然后我们用神经架构搜索NAS算法设计一个小模型Agent的架构接着我们用知识蒸馏KD方法让云端大模型Agent教师模型教小模型Agent学生模型学习得到一个预训练小模型Agent然后我们用剪枝Pruning方法剪掉预训练小模型Agent里没用的神经元连接权重得到一个剪枝后的小模型Agent接着我们用量化Quantization方法把剪枝后的小模型Agent的权重和激活值量化成低精度的得到一个量化后的小模型Agent然后我们压缩Agent的其他模块感知模块、记忆模块、执行模块接着我们把压缩后的LLM/MLLM和压缩后的其他模块组合起来得到一个完整的压缩版Agent系统然后我们把完整的压缩版Agent系统部署到边缘设备上接着我们测试压缩版Agent系统的效果比如准确率、推理延迟、显存占用、内存占用、电池消耗如果效果满足要求我们就上线使用如果效果不满足要求我们就调整压缩策略比如调整NAS的参数、调整知识蒸馏的损失函数、调整剪枝的比例、调整量化的精度然后回到步骤2重新开始压缩。未完待续下一部分将详细讲解核心算法原理和具体操作步骤字数预计达到10000字以上