导读露天矿场景下的无人机巡检有一个独特的挑战不仅要检测到矿卡、挖掘机这些设备还要在复杂动态场景中持续跟踪它们——设备密集、遮挡频繁、远距离目标小。传统做法要么用重量级模型但无人机算力不够要么用轻量模型但小目标漏检严重。辽宁工程技术大学团队提出了一套轻量化检测跟踪一体化方案在YOLOv8s基础上引入可变形卷积、渐进式特征金字塔和轻量化检测头再用LAMP剪枝将参数压缩到 4.39M原模型的39.4%最终在自建矿山数据集上取得 mAP50 0.868推理仅 196ms功耗仅 8.3W。跟踪部分改进ByteTrack算法引入空间-外观相似性矩阵将 MOTA提升到75.8%ID切换从68次降到47次。整套系统可部署在Jetson Xavier NX上适配无人机实际算力约束。论文信息标题: Lightweight target detection and multi target tracking for UAV inspection in open pit mines作者: Guangwei Liu, Linbo Zhang通讯作者, Jian Lei, Senlin Chai, Weijun Zhu机构: 辽宁工程技术大学矿业学院 / 沈阳工学院经济管理学院期刊: Scientific Reports, Volume 16, Article 8084 (2026)DOI: 10.1038/s41598-026-38676-4一、露天矿巡检为什么需要检测跟踪露天矿的无人机巡检面临三个层面的挑战算力与精度的矛盾。无人机搭载的边缘计算设备如Jetson Xavier NX算力有限但矿区复杂场景需要高精度的小目标检测能力。小目标与遮挡并存。远距离设备在画面中很小设备之间又经常相互遮挡传统检测模型在这两个场景下都容易失效。单帧检测不够用。矿区需要持续追踪设备的运动轨迹和作业状态如矿卡是否载货仅靠逐帧检测无法维持目标身份的连续性——相似外观的矿卡容易发生ID切换。论文的解决思路是先用轻量化检测模型解决看到的问题再用改进的跟踪算法解决跟住的问题两者协同部署在无人机边缘设备上。二、检测模型三项结构改进将YOLOv8s参数从11.13M压到4.39M基座模型选择YOLOv8s论文给出的理由是结构模块化便于针对性修改、参数量适中有优化空间、工业部署成熟度高。图片来源于原论文三项结构改进LAMP剪枝在第三节单独介绍2.1 骨干网络C2f-DCN可变形卷积DCNv2将C2f模块中的标准卷积替换为DCNv2可变形卷积。DCNv2在每个采样点增加了可学习的偏移量和调制权重使卷积核能自适应地变形以匹配目标的不规则轮廓。矿区设备受作业和环境影响形态多变可变形卷积比固定形状的标准卷积更适合捕捉这类目标。2.2 颈部网络AFPN渐进式特征金字塔用AFPNAsymptotic Feature Pyramid Network替换原始的PANet。AFPN的核心思路是先融合语义差距小的相邻层级特征再逐步引入高层级特征避免PANet直接融合语义差距大的非相邻层级造成的信息冲突。融合时使用softmax加权的自适应空间融合权重通过卷积层学习。2.3 检测头LSDECD-Head轻量化空间双增强交叉解耦头设计了一个轻量化共享细节增强卷积检测头接收4个层级的特征图P2到P5通过1×1卷积调整通道数再经两个3×3共享细节增强卷积模块聚合特征最后分别输出分类和回归结果。使用可变形卷积实现多层级特征的自适应聚合并加入空间感知注意力增强对小目标的关注。2.4 损失函数Focaler-GIoU将CIoU损失替换为Focaler-GIoU结合Focaler-IoU的动态样本加权和GIoU的几何惩罚。Focaler-IoU通过阈值参数d和u将样本分为三档对中等难度样本施加更大权重迫使模型在困难/遮挡目标上投入更多学习资源。消融实验结果配置mAP50参数量/MFLOPs/G推理时间/msYOLOv8s基线0.55711.1328.5347C2f-DCNAFPN0.7954.8417.9291LSDECD-Head0.8234.3914.7232Focaler-GIoU0.8684.3914.7196几个关键发现C2f-DCNAFPN是最大贡献因素mAP50从0.557提升到0.79523.8个百分点同时参数量从11.13M降到4.84M减少56.5%LSDECD-Head在不增加参数的情况下进一步将mAP50提升到0.823FLOPs从17.9G降到14.7GFocaler-GIoU将mAP50推到0.868推理时间从232ms降到196ms三、LAMP剪枝与多目标跟踪3.1 LAMP剪枝30%剪枝率为最优平衡点使用LAMPLayer-wise Adaptive Magnitude Pruning对模型进行全局剪枝测试了0%-80%共9档剪枝率。需要说明的是剪枝实验的起点模型未剪枝参数量5.62M与消融实验的最终模型4.39M参数量不同这是因为剪枝实验基于包含完整结构改进但未经剪枝优化的版本。剪枝率mAP50参数量/MFLOPs/G推理时间/ms0%0.8575.6220.230510%0.8605.1318.527420%0.8704.8216.222530%0.8684.3914.719640%0.8624.1310.618250%0.7953.959.417060%0.6423.529.315870%0.5923.098.514580%0.5532.667.613030%剪枝率下mAP50为0.868与20%剪枝率的0.870几乎持平但参数和推理时间更优。超过40%后性能开始明显下降50%时mAP50骤降到0.79560%以上则降至0.642以下。图片来源于原论文3.2 改进ByteTrack空间-外观相似性矩阵原始ByteTrack仅依赖IoU进行目标关联在矿区场景中容易因相似外观的矿卡造成ID切换。论文提出两项改进空间-外观相似性矩阵ASM融合目标的空间位置、运动状态速度/加速度、作业状态如载货/空载和外观特征颜色差异进行综合匹配权重系数通过敏感性分析确定空间权重ε0.6外观权重1-ε0.4。加速度校正函数在轨迹预测中引入加速度修正项动态调整校正系数提升急停/急转场景下的预测准确性。跟踪消融实验跟踪评估基于10段设备操作视频共120分钟在Jetson Xavier NX上测试。配置MOTA/%MOTP/%IDF1/%ID切换单帧跟踪/msFPSByteTrack基线72.266.272.6684522.22ASM矩阵73.565.873.2593826.32校正函数73.065.572.9613925.64两者结合75.867.274.4473231.25两项改进叠加后MOTA从72.2%提升到75.8%ID切换从68次降到47次-30.9%单帧跟踪时间从45ms降到32ms。与最新跟踪方法对比方法MOTA/%MOTP/%IDF1/%ID切换BoT-SORT71.565.370.272StrongSORT73.166.172.363MVTL-UAV74.265.973.558ByteTrack72.266.272.668本文方法75.867.274.447本文方法在MOTA、MOTP、IDF1三项指标上均为最高ID切换数量最少47次比次优MVTL-UAV的58次少11次。四、与主流检测模型的全面对比自建矿山数据集对比数据集包含6000张图像原始分辨率5472×3648训练时裁剪缩放到640×640目标类别包括矿卡约65%、挖掘机、非协作目标未授权车辆/人员等。以下所有推理和功耗测试均在Jetson Xavier NX21 TOPS, 8GB上进行。方法mAP50参数/MFLOPs/G模型大小/MB推理/msCPU占用/%功耗/WYOLOv8s0.55311.1328.521.46364.2338.5±2.312.8±1.1SSD0.7248.9415.75.94223.7742.1±1.810.5±0.9YOLOv9s0.58412.1318.723.25425.3645.7±2.114.2±1.3YOLOv10s0.56410.5722.919.57353.2440.3±1.913.1±1.0YOLOv11s0.5739.123.817.65323.4139.8±2.012.5±0.8Faster RCNN0.5827.911.88.27287.451.2±2.515.3±1.2本文方法0.8684.3914.74.7619628.6±1.58.3±0.7本文方法在mAP50、参数量、模型大小、推理速度、CPU占用率和功耗六项指标上均为最优FLOPs方面Faster RCNN的11.8G低于本文的14.7GmAP50比次优SSD高14.4个百分点比YOLOv8s基线高31.5个百分点参数量仅为YOLOv8s的39.4%功耗仅8.3W比YOLOv8s低35.2%CPU占用率 28.6%为所有方法中最低VisDrone2019跨数据集验证方法mAP50推理/msYOLOv8s0.523324.23SSD0.672203.77本文方法0.812176.24在未见过的VisDrone2019数据集上mAP50仍达0.812验证了模型的泛化能力。图片来源于原论文五、总结与思考这篇工作的核心亮点在于检测与跟踪的一体化设计以及对无人机实际部署约束的充分考量算力、功耗、模型大小。几点值得关注的发现C2f-DCNAFPN的组合效果远超预期。消融实验中仅这一项改进就同时提升了mAP5023.8个百分点并大幅压缩了参数量-56.5%。这说明在特定场景中选择合适的特征提取策略可变形卷积渐进融合比堆叠更多模块更有效。功耗和CPU占用率是被忽视的指标。大多数检测论文只报告mAP和FPS但对于无人机部署功耗8.3W vs 12.8W和CPU占用率28.6% vs 38.5%同样关键——它们直接决定了无人机的续航时间和多任务并行能力。这篇论文将这些指标纳入对比是一个值得推广的做法。跟踪的实用价值。在矿区场景中跟踪的意义不仅是维持目标身份连续性更重要的是结合作业状态载货/空载进行匹配。ASM矩阵中引入运营状态量化载货1、空载0是一个贴合场景的设计。局限性方面论文的检测部分推理速度为196ms约5 FPS对于快速移动场景可能不够流畅。此外自建数据集中矿卡占65%类别分布不均衡可能对其他目标的检测精度产生影响。论文仅公开了跨数据集验证所用的VisDrone2019数据集链接自建矿山数据集未公开这对后续工作的复现和扩展构成一定限制。
检测+跟踪一体化!4.39M参数、8.3W功耗,轻量化模型让无人机在露天矿实时巡检
发布时间:2026/5/28 13:32:34
导读露天矿场景下的无人机巡检有一个独特的挑战不仅要检测到矿卡、挖掘机这些设备还要在复杂动态场景中持续跟踪它们——设备密集、遮挡频繁、远距离目标小。传统做法要么用重量级模型但无人机算力不够要么用轻量模型但小目标漏检严重。辽宁工程技术大学团队提出了一套轻量化检测跟踪一体化方案在YOLOv8s基础上引入可变形卷积、渐进式特征金字塔和轻量化检测头再用LAMP剪枝将参数压缩到 4.39M原模型的39.4%最终在自建矿山数据集上取得 mAP50 0.868推理仅 196ms功耗仅 8.3W。跟踪部分改进ByteTrack算法引入空间-外观相似性矩阵将 MOTA提升到75.8%ID切换从68次降到47次。整套系统可部署在Jetson Xavier NX上适配无人机实际算力约束。论文信息标题: Lightweight target detection and multi target tracking for UAV inspection in open pit mines作者: Guangwei Liu, Linbo Zhang通讯作者, Jian Lei, Senlin Chai, Weijun Zhu机构: 辽宁工程技术大学矿业学院 / 沈阳工学院经济管理学院期刊: Scientific Reports, Volume 16, Article 8084 (2026)DOI: 10.1038/s41598-026-38676-4一、露天矿巡检为什么需要检测跟踪露天矿的无人机巡检面临三个层面的挑战算力与精度的矛盾。无人机搭载的边缘计算设备如Jetson Xavier NX算力有限但矿区复杂场景需要高精度的小目标检测能力。小目标与遮挡并存。远距离设备在画面中很小设备之间又经常相互遮挡传统检测模型在这两个场景下都容易失效。单帧检测不够用。矿区需要持续追踪设备的运动轨迹和作业状态如矿卡是否载货仅靠逐帧检测无法维持目标身份的连续性——相似外观的矿卡容易发生ID切换。论文的解决思路是先用轻量化检测模型解决看到的问题再用改进的跟踪算法解决跟住的问题两者协同部署在无人机边缘设备上。二、检测模型三项结构改进将YOLOv8s参数从11.13M压到4.39M基座模型选择YOLOv8s论文给出的理由是结构模块化便于针对性修改、参数量适中有优化空间、工业部署成熟度高。图片来源于原论文三项结构改进LAMP剪枝在第三节单独介绍2.1 骨干网络C2f-DCN可变形卷积DCNv2将C2f模块中的标准卷积替换为DCNv2可变形卷积。DCNv2在每个采样点增加了可学习的偏移量和调制权重使卷积核能自适应地变形以匹配目标的不规则轮廓。矿区设备受作业和环境影响形态多变可变形卷积比固定形状的标准卷积更适合捕捉这类目标。2.2 颈部网络AFPN渐进式特征金字塔用AFPNAsymptotic Feature Pyramid Network替换原始的PANet。AFPN的核心思路是先融合语义差距小的相邻层级特征再逐步引入高层级特征避免PANet直接融合语义差距大的非相邻层级造成的信息冲突。融合时使用softmax加权的自适应空间融合权重通过卷积层学习。2.3 检测头LSDECD-Head轻量化空间双增强交叉解耦头设计了一个轻量化共享细节增强卷积检测头接收4个层级的特征图P2到P5通过1×1卷积调整通道数再经两个3×3共享细节增强卷积模块聚合特征最后分别输出分类和回归结果。使用可变形卷积实现多层级特征的自适应聚合并加入空间感知注意力增强对小目标的关注。2.4 损失函数Focaler-GIoU将CIoU损失替换为Focaler-GIoU结合Focaler-IoU的动态样本加权和GIoU的几何惩罚。Focaler-IoU通过阈值参数d和u将样本分为三档对中等难度样本施加更大权重迫使模型在困难/遮挡目标上投入更多学习资源。消融实验结果配置mAP50参数量/MFLOPs/G推理时间/msYOLOv8s基线0.55711.1328.5347C2f-DCNAFPN0.7954.8417.9291LSDECD-Head0.8234.3914.7232Focaler-GIoU0.8684.3914.7196几个关键发现C2f-DCNAFPN是最大贡献因素mAP50从0.557提升到0.79523.8个百分点同时参数量从11.13M降到4.84M减少56.5%LSDECD-Head在不增加参数的情况下进一步将mAP50提升到0.823FLOPs从17.9G降到14.7GFocaler-GIoU将mAP50推到0.868推理时间从232ms降到196ms三、LAMP剪枝与多目标跟踪3.1 LAMP剪枝30%剪枝率为最优平衡点使用LAMPLayer-wise Adaptive Magnitude Pruning对模型进行全局剪枝测试了0%-80%共9档剪枝率。需要说明的是剪枝实验的起点模型未剪枝参数量5.62M与消融实验的最终模型4.39M参数量不同这是因为剪枝实验基于包含完整结构改进但未经剪枝优化的版本。剪枝率mAP50参数量/MFLOPs/G推理时间/ms0%0.8575.6220.230510%0.8605.1318.527420%0.8704.8216.222530%0.8684.3914.719640%0.8624.1310.618250%0.7953.959.417060%0.6423.529.315870%0.5923.098.514580%0.5532.667.613030%剪枝率下mAP50为0.868与20%剪枝率的0.870几乎持平但参数和推理时间更优。超过40%后性能开始明显下降50%时mAP50骤降到0.79560%以上则降至0.642以下。图片来源于原论文3.2 改进ByteTrack空间-外观相似性矩阵原始ByteTrack仅依赖IoU进行目标关联在矿区场景中容易因相似外观的矿卡造成ID切换。论文提出两项改进空间-外观相似性矩阵ASM融合目标的空间位置、运动状态速度/加速度、作业状态如载货/空载和外观特征颜色差异进行综合匹配权重系数通过敏感性分析确定空间权重ε0.6外观权重1-ε0.4。加速度校正函数在轨迹预测中引入加速度修正项动态调整校正系数提升急停/急转场景下的预测准确性。跟踪消融实验跟踪评估基于10段设备操作视频共120分钟在Jetson Xavier NX上测试。配置MOTA/%MOTP/%IDF1/%ID切换单帧跟踪/msFPSByteTrack基线72.266.272.6684522.22ASM矩阵73.565.873.2593826.32校正函数73.065.572.9613925.64两者结合75.867.274.4473231.25两项改进叠加后MOTA从72.2%提升到75.8%ID切换从68次降到47次-30.9%单帧跟踪时间从45ms降到32ms。与最新跟踪方法对比方法MOTA/%MOTP/%IDF1/%ID切换BoT-SORT71.565.370.272StrongSORT73.166.172.363MVTL-UAV74.265.973.558ByteTrack72.266.272.668本文方法75.867.274.447本文方法在MOTA、MOTP、IDF1三项指标上均为最高ID切换数量最少47次比次优MVTL-UAV的58次少11次。四、与主流检测模型的全面对比自建矿山数据集对比数据集包含6000张图像原始分辨率5472×3648训练时裁剪缩放到640×640目标类别包括矿卡约65%、挖掘机、非协作目标未授权车辆/人员等。以下所有推理和功耗测试均在Jetson Xavier NX21 TOPS, 8GB上进行。方法mAP50参数/MFLOPs/G模型大小/MB推理/msCPU占用/%功耗/WYOLOv8s0.55311.1328.521.46364.2338.5±2.312.8±1.1SSD0.7248.9415.75.94223.7742.1±1.810.5±0.9YOLOv9s0.58412.1318.723.25425.3645.7±2.114.2±1.3YOLOv10s0.56410.5722.919.57353.2440.3±1.913.1±1.0YOLOv11s0.5739.123.817.65323.4139.8±2.012.5±0.8Faster RCNN0.5827.911.88.27287.451.2±2.515.3±1.2本文方法0.8684.3914.74.7619628.6±1.58.3±0.7本文方法在mAP50、参数量、模型大小、推理速度、CPU占用率和功耗六项指标上均为最优FLOPs方面Faster RCNN的11.8G低于本文的14.7GmAP50比次优SSD高14.4个百分点比YOLOv8s基线高31.5个百分点参数量仅为YOLOv8s的39.4%功耗仅8.3W比YOLOv8s低35.2%CPU占用率 28.6%为所有方法中最低VisDrone2019跨数据集验证方法mAP50推理/msYOLOv8s0.523324.23SSD0.672203.77本文方法0.812176.24在未见过的VisDrone2019数据集上mAP50仍达0.812验证了模型的泛化能力。图片来源于原论文五、总结与思考这篇工作的核心亮点在于检测与跟踪的一体化设计以及对无人机实际部署约束的充分考量算力、功耗、模型大小。几点值得关注的发现C2f-DCNAFPN的组合效果远超预期。消融实验中仅这一项改进就同时提升了mAP5023.8个百分点并大幅压缩了参数量-56.5%。这说明在特定场景中选择合适的特征提取策略可变形卷积渐进融合比堆叠更多模块更有效。功耗和CPU占用率是被忽视的指标。大多数检测论文只报告mAP和FPS但对于无人机部署功耗8.3W vs 12.8W和CPU占用率28.6% vs 38.5%同样关键——它们直接决定了无人机的续航时间和多任务并行能力。这篇论文将这些指标纳入对比是一个值得推广的做法。跟踪的实用价值。在矿区场景中跟踪的意义不仅是维持目标身份连续性更重要的是结合作业状态载货/空载进行匹配。ASM矩阵中引入运营状态量化载货1、空载0是一个贴合场景的设计。局限性方面论文的检测部分推理速度为196ms约5 FPS对于快速移动场景可能不够流畅。此外自建数据集中矿卡占65%类别分布不均衡可能对其他目标的检测精度产生影响。论文仅公开了跨数据集验证所用的VisDrone2019数据集链接自建矿山数据集未公开这对后续工作的复现和扩展构成一定限制。