【YOLO目标检测全栈实战】92 YOLO知识蒸馏:让轻量模型继承重型模型的“火种” 你有没有遇到过这样的场景:团队花了三个月训练了一个YOLOv8-Large模型,mAP达到78.5%,但部署到 Jetson Orin NX 上时,推理速度只有12 FPS,完全达不到实时要求。换成YOLOv8-Nano,速度倒是飙到了60 FPS,但mAP直接掉到62.3%,质检产线漏检率飙升,老板在晨会上拍桌子。这就是我去年在工业质检项目里真实踩过的坑。当时团队里的小王说:“要不我们试试知识蒸馏?” 我心想,这不就是把大模型的‘知识’传给小模型吗?听起来简单,可真做起来才发现,坑比想象中的多得多。痛点拆解:知识蒸馏的三个常见误区误区一:直接拿教师模型的logits做软标签训练很多新手会这么写:# 反例:直接使用教师模型的logits作为软标签teacher_model.eval()withtorch.no_grad(