从一次深夜调试说起上周调一个嵌入式端侧的目标检测模型,部署到板子上发现边界框总是“飘”。明明训练时mAP不错,实际跑起来框的位置就是差那么几个像素。排查了一晚上数据增强、后处理,最后盯着损失函数曲线看了半天——问题出在普通的IoU Loss上。传统的IoU Loss在目标框和预测框没有重叠时梯度直接归零,导致训练初期收敛慢;而像GIoU虽然解决了无重叠问题,但长宽比优化效率依然不高。这让我重新审视了这几年冒出来的各种IoU变体:SIoU、EIoU、WIoU…今天我们就来拆解这些损失函数到底在改什么,以及怎么选。IoU Loss的进化脉络最早的IoU Loss就是1-IoU,简单直接,但有个致命缺陷:两个框不相交时IoU=0,Loss恒为1,梯度为零没法优化。2019年GIoU引入最小外接矩形,解决了梯度问题,但实际调参发现,当两个框包含关系时,GIoU会退化成IoU,收敛速度还是不够理想。接着DIoU和CIoU登场。DIoU在IoU基础上加了中心点距离惩罚,让框更快对齐;CIoU又补了长宽比一致性约束。理论上CIoU已经很全面,但我们实测发现,长宽比项的那个v对梯度贡献不太稳定,有时候反而干扰训练。SIoU:引入角度惩罚SIoU这篇论文有意思,它认为框回归应该分步骤优化:先对齐角度,再对齐距离,最后调整形状。损失函数分了四个部分:角度损失:预测框和真实框中心连线与坐标轴的夹角惩罚
【RT-DETR实战】040、损失函数改进:SIoU, EIoU, WIoU等边框损失
从一次深夜调试说起上周调一个嵌入式端侧的目标检测模型,部署到板子上发现边界框总是“飘”。明明训练时mAP不错,实际跑起来框的位置就是差那么几个像素。排查了一晚上数据增强、后处理,最后盯着损失函数曲线看了半天——问题出在普通的IoU Loss上。传统的IoU Loss在目标框和预测框没有重叠时梯度直接归零,导致训练初期收敛慢;而像GIoU虽然解决了无重叠问题,但长宽比优化效率依然不高。这让我重新审视了这几年冒出来的各种IoU变体:SIoU、EIoU、WIoU…今天我们就来拆解这些损失函数到底在改什么,以及怎么选。IoU Loss的进化脉络最早的IoU Loss就是1-IoU,简单直接,但有个致命缺陷:两个框不相交时IoU=0,Loss恒为1,梯度为零没法优化。2019年GIoU引入最小外接矩形,解决了梯度问题,但实际调参发现,当两个框包含关系时,GIoU会退化成IoU,收敛速度还是不够理想。接着DIoU和CIoU登场。DIoU在IoU基础上加了中心点距离惩罚,让框更快对齐;CIoU又补了长宽比一致性约束。理论上CIoU已经很全面,但我们实测发现,长宽比项的那个v对梯度贡献不太稳定,有时候反而干扰训练。SIoU:引入角度惩罚SIoU这篇论文有意思,它认为框回归应该分步骤优化:先对齐角度,再对齐距离,最后调整形状。损失函数分了四个部分:角度损失:预测框和真实框中心连线与坐标轴的夹角惩罚
相关文章
draw.io桌面版终极指南:免费跨平台Visio VSDX文件编辑解决方案
draw.io桌面版终极指南:免费跨平台Visio VSDX文件编辑解决方案 【免费下载链接】drawio-desktop Official electron build of draw.io 项目地址: https://gitcode.com/GitHub_Trending/dr/drawio-desktop 还在为不同操作系统间的Visio文件兼容性问题而烦恼吗…
主流AI大模型优点总结
追求综合通用能力可重点关注 GPT、Claude、Gemini 这类通用能力强的大模型。重视中文和本地化应用Qwen、DeepSeek、GLM、Kimi、文心、星火、混元等更适合中文知识问答、办公和企业场景。重视代码和推理能力DeepSeek、GPT、Claude、Qwen、GLM 在代码生成、数学推理、结构化分析等…
【Android车载学习笔记】第一天:Android Automotive OS介绍
AAOS(Android Automotive OS) 如今主流新能源、燃油高端车型,大多搭载了 AAOS 系统,也就是 Android Automotive OS。 很多人会误以为:AAOS 就是把手机安卓搬上车的简化版、升级版,和我们手机用的安卓没区别…
现货库存DP83848CVVX/NOPB是由 TI推出的一款高性能、低功耗的 10/100 Mbps 以太网物理层收发器(PHY),广泛应用于工业控制、汽车电子和嵌入式网络设备中。
DP83848CVVX/NOPB 是由 TI德州仪器推出的一款高性能、低功耗的 10/100 Mbps 以太网物理层收发器(PHY),广泛应用于工业控制、汽车电子和嵌入式网络设备中,具备出色的环境适应性和系统集成能力。核心性能参数数据速率&a…
Wu.CommTool:一站式工业通信调试的免费开源终极解决方案
Wu.CommTool:一站式工业通信调试的免费开源终极解决方案 【免费下载链接】Wu.CommTool 基于C#、WPF、Prism、MaterialDesign、HandyControl开发的通讯调试工具。支持Modbus Rtu调试、Mqtt调试、TCP调试、串口调试、UDP调试 项目地址: https://gitcode.com/gh_mirr…
从YUYV到MJPEG:一次搞懂Linux V4L2摄像头像素格式的坑,附帧数据保存实战
从YUYV到MJPEG:深入解析Linux V4L2摄像头像素格式与实战避坑指南 当你在Linux系统下通过V4L2框架采集摄像头数据时,是否遇到过保存的图片无法打开、颜色显示异常或者帧数据莫名其妙损坏的情况?这些问题的根源往往在于对像素格式的理解不足。本…
【故障诊断】DSCNN-HA-TL:融合Swin窗口注意力和全局注意力机制的变工况轴承故障诊断(迁移学习/小样本)
在工业旋转机械中,滚动轴承是最关键、也最容易发生故障的部件之一。然而,变工况、故障样本稀缺、跨域泛化能力差三大难题,长期制约着故障诊断模型的落地效果。 近期,来自河北工程大学、天津大学等机构的研究团队提出了一种全新的…
技术人的“数字工作台”搭建指南:从任务管理到知识沉淀
在软件测试领域,我们每天都在与复杂的系统、琐碎的用例和瞬息万变的需求打交道。很多测试同行都有这样的困扰:早上一坐下,面对十几个浏览器标签页、邮件、即时通讯消息和测试管理工具的通知,不知道该从哪件事下手。任务分散在不同…
Linux平台微信小程序开发工具架构演进与跨平台兼容性技术突破
Linux平台微信小程序开发工具架构演进与跨平台兼容性技术突破 【免费下载链接】wechat-web-devtools-linux 适用于微信小程序的微信开发者工具 Linux移植版 项目地址: https://gitcode.com/gh_mirrors/we/wechat-web-devtools-linux 在移动应用开发领域,微信…
SD-PPP:在Photoshop中开启智能设计革命的终极AI插件
SD-PPP:在Photoshop中开启智能设计革命的终极AI插件 【免费下载链接】sd-ppp A Photoshop AI plugin 项目地址: https://gitcode.com/gh_mirrors/sd/sd-ppp 你是否厌倦了在Photoshop和AI工具之间频繁切换,打断了创意的流畅性?SD-PPP正…
NomNom存档编辑器:解放你的《无人深空》游戏体验终极指南
NomNom存档编辑器:解放你的《无人深空》游戏体验终极指南 【免费下载链接】NomNom NomNom is the most complete savegame editor for NMS but also shows additional information around the data youre about to change. You can also easily look up each item i…
5个专业策略:构建企业级本地漏洞情报分析平台
5个专业策略:构建企业级本地漏洞情报分析平台 【免费下载链接】cve-search cve-search - a tool to perform local searches for known vulnerabilities 项目地址: https://gitcode.com/gh_mirrors/cv/cve-search 在当今复杂的网络安全环境中,快速…
贾子理论与AI时代文明竞争:从暴力计算到本质贯通的范式重构
贾子理论与AI时代文明竞争:从暴力计算到本质贯通的范式重构摘要本文基于贾子理论的文明竞争视角,揭示中美AI战略差异的本质并非技术参数较量,而是“暴力计算”与“本质贯通”两种文明范式的根本对立。美国依赖算力堆叠与资本逻辑追求技术霸权…
2026年AI大模型API中转平台排名揭晓,诗云API(ShiyunApi)脱颖而出成省心之选
在AI开发领域,如何接入模型厂商的官方API是一个绕不开的现实问题。对于海外开发者来说,注册、绑卡、调用,三步即可轻松搞定。然而,国内开发者却面临着跨境网络波动、外币支付门槛、发票合规需求以及多厂商Key碎片化管理等诸多“非…
基于飞书与OpenAI构建企业级AI助手:架构、部署与深度优化指南
1. 项目概述:当飞书遇上AI,一个企业级智能助手的诞生 最近在折腾一个挺有意思的项目,叫“ConnectAI-E/feishu-openai”。简单来说,它就是一个桥梁,把飞书这个强大的企业协作平台,和以ChatGPT为代表的OpenA…
MPC-BE:基于DirectShow架构的专业级开源媒体播放解决方案
MPC-BE:基于DirectShow架构的专业级开源媒体播放解决方案 【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…
如何快速计算3D模型体积和重量:STL-Volume-Model-Calculator终极指南
如何快速计算3D模型体积和重量:STL-Volume-Model-Calculator终极指南 【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…
通过Taotoken CLI工具一键配置团队开发环境与模型密钥
通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队,推荐全局安装: npm install -g taotoken/taotoken对于临时使用或项目级配置&a…