EC-IoU: Orienting Safety for Object Detectors via Ego-Centric Intersection-over-Union通过基于自我的交并比为目标检测 《EC-IoU: Orienting Safety for Object Detectors via Ego-Centric Intersection-over-Union》的核心研究内容可以概括为以下几点1. 研究动机与问题标准的交并比IoU是目标检测中衡量预测框与真实框重合度的核心指标。作者指出IoU 存在一个关键局限它仅关注绝对位置即物体中心是以物体为中心的度量。在自动驾驶等安全关键场景中物体与自我车辆ego的相对位置至关重要。靠近自车的物体部分如果预测不准会带来更大的碰撞风险但IoU无法体现这种差异例如两个IoU相同的预测框一个靠前、一个靠后在安全性上完全不同。2. 核心贡献提出 EC-IoU 度量为了解决上述问题作者提出了基于自我的交并比EC-IoU。核心思想引入一个基于距离的加权函数。对于真实目标框内的每一个点距离自车越近的点其“安全重要性”权重越高。数学定义EC-IoU 通过计算预测框与真实框交集部分的加权面积除以真实框本身的加权面积加上惩罚项从而给那些覆盖了真实目标中更靠近自车部分的预测框打更高的分数。直观理解如图1所示当两个预测框与真实框的IoU相同时EC-IoU会倾向于选择那个覆盖了物体前方更靠近自车的蓝色预测框而不是后方的红色预测框因为这更有利于安全。3. 计算方法与特性由于加权面积难以直接通过公式求解作者基于中值定理提出了一种高效的近似计算方法通过对相交多边形顶点权重取几何平均数该方法的时间复杂度与普通IoU相当。数学性质证明了EC-IoU的值域在 [0, 1] 之间并且仅在预测框与真实框完全重合时取最大值1。4. 实验验证与应用模拟实验在模拟的边界框回归任务中使用EC-IoU作为损失函数能更快地提升模型在安全指标上的表现。模型评估nuScenes/KITTI数据集使用EC-IoU评估现有模型发现某些高精度IoU高的模型在EC-IoU得分上可能较低例如大尺寸的卡车类别暗示了潜在的安全风险。这表明EC-IoU能提供比IoU更精细的评估维度区分出IoU饱和的模型。模型微调KITTI数据集将EC-IoU集成到损失函数中对现有模型PGD进行微调。结果显示经过EC-IoU微调的模型不仅在安全导向的EC-AP指标上显著提升甚至在传统的标准平均精度mAP上也超越了基准模型。这篇文章的主要贡献是提出了一个安全导向的目标检测评估指标 EC-IoU。它通过引入自车位置信息对IoU进行加权能够更准确地反映预测框在真实驾驶场景中的安全性。该指标既可以用于模型评估以筛选更安全的模型也可以作为损失函数用于模型训练最终在不牺牲甚至提升传统精度的前提下增强了模型的安全特性。这里是自己的论文阅读记录感兴趣的话可以参考一下如果需要阅读原文的话可以看这里如下所示摘要本文提出了基于自我的交并比Ego-Centric Intersection-over-Union, EC-IoU旨在解决标准 IoU 度量在描述导航场景下目标检测器安全相关性能方面的局限性。具体来说我们提出了一种加权机制来改进 IoU使其能够从自我ego智能体的角度为覆盖真实目标ground-truth object中更近点的预测赋予更高的分数。所提出的 EC-IoU 度量可用于典型的评估流程为下游任务选择具有更好安全相关性能的目标检测器。它也可以集成到常见的损失函数中用于模型微调。尽管 EC-IoU 旨在提升安全性但我们在 KITTI 数据集上的实验表明使用 EC-IoU 训练的模型在平均精度均值mean Average Precision方面的性能也可能优于使用 IoU 训练的变体。I. 引言目标检测是机器人感知与导航中的一项基本功能。得益于新兴的基于学习的算法和流程目标检测器已经取得了前所未有的性能并已被应用于许多领域 [1]。然而其中一些应用尤其是那些具有安全关键性的应用在规模化方面似乎遇到了一些挑战例如自动驾驶行业中高度自动化汽车的批量生产和广泛部署。根据 ISO 21448即 SOTIF[2] 和 ANSI/UL 4600 [3] 等行业标准一个关键但似乎缺失的因素是实施领先的安全相关性能指标。在观察到这一潜在差距后我们为目标检测器开发了一种安全导向的度量该度量能更好地反映安全概念从而缓解这些挑战。图 1: 展示我们动机的示意图。所有蓝色和红色的预测框与真实框的 IoU 都大约为 0.7。然而从红色的自我车辆的角度来看应该优先考虑蓝色的预测框以避免在物体前方发生潜在的碰撞。通常交并比Intersection-over-Union, IoU度量用于将模型预测与真实目标进行比较 [4]。它在常见的场景理解应用中能够很好地指示模型性能。然而IoU 仅关注真实目标的绝对位置即以目标为中心当真实目标与自我ego之间的相对位置至关重要时例如在驾驶场景中它可能存在局限性。此外研究表明最先进的目标检测器通常在 IoU 达到 0.7 到 1 之间时趋于饱和 [5]。有时很难进一步区分或改进这些检测器。因此需要一个更精细的指标来区分这些饱和的模型并预测哪些模型在系统运行期间会引发较少的安全问题。我们的主要贡献因此是提出了一种改进的度量——基于自我的交并比Ego-Centric IoU, EC-IoU它在评估预测与其真实目标的关系时考虑到了自我ego的位置。通过这样做可以更好地反映自我和物体之间的潜在安全或危险。举例说明给定真实目标附近的两个预测框覆盖真实目标中更靠近自我智能体部分的那个预测框应被评为更好。图 1 描绘了这一概念。技术上我们从一个加权函数开始该函数为真实目标中的不同点分配不同的重要性等级距离自我越近的点越重要。然后将该加权函数纳入 IoU 的公式中从而得到所提出的 EC-IoU。由于在 IoU 中求解面积涉及到格林定理Greens Theorem而其加权版本变得难以求解我们进一步通过中值定理Mean Value Theorem提出了一种计算 EC-IoU 的近似方案。我们通过蒙特卡洛积分计算出的原始曲线验证了该近似方法的有效性并证明其具有与 IoU 相同的时间复杂度。EC-IoU 可以轻松地用于常见的目标检测器评估流程。我们将其纳入两种类型的评估协议分别以 nuScenes [6] 和 KITTI [7] 基准测试为代表sup1/sup。我们对托管在 MMDetection3D 平台 [8] 上的几个最先进模型进行的评估表明虽然其中一些模型实现了良好的精度例如在 IoU 方面但它们可能表现出安全问题。此外我们利用 EC-IoU 来训练和微调一个模型以使其更明确地具有安全感知。在此过程中优化结果表明与基于 IoU 的变体相比我们的模型在平均精度均值mAP最广泛使用的基于精度的性能指标上也取得了更高的分数。总之我们的工作提出了一个在基于学习的目标检测器开发中具体化安全原则的新实例。II. 相关工作目标检测是一个长期的研究领域读者可参考最近的综述以全面了解常见的传感器、检测算法和可用的基准测试 [1], [9], [10]。我们在此关注定位/回归分支的演变。早期的目标检测方法应用手工设计的滤波器来匹配模式并在输入中定位物体 [11], [12]。自深度学习时代以来研究考虑了各种损失函数通过梯度下降使模型预测向真实目标回归。早期的方法如 RCNN 系列 [13] 和 SSD [14]基于 L1​ 或 L2​ 范数计算物体表示参数例如位置、尺寸和方向的数值差异。然而这种方法会导致归一化问题并忽略了任务的空间特性。因此后来的研究提出了 IoU [15] 和 Generalized IoU [16] 作为度量和损失函数。最近它们通过正则化项得到了增强并扩展为 Distance-IoU [17] 和 Efficient-IoU [18] 损失函数在训练过程中实现了更高的精度和更快的收敛速度。最后类似于用于目标分类的 Focal Loss [19]Focal-Efficient-IoU [18] 和 Alpha-IoU [5] 被提出来寻找有效样本并进一步改善学习效果。上述结果主要属于使训练更高效、使检测器更精确的范畴。持有稍微不同的视角其他一些研究已经制定了超越精度的考虑因素。例如Waymo 提出了 LET-3D-AP纵向误差容忍的 3D 平均精度度量这是一种针对基于摄像头的目标检测器的宽松评估协议考虑了它们在距离自我车辆较远的物体上往往具有较大纵向误差的倾向 [20]。更侧重于安全该公司提出了 SDE支持距离误差计算参考自我车辆行驶方向的绝对定位误差 [21]。尽管如此SDE 是为基于激光雷达的模型量身定制的。更具普适性的安全导向度量可以在 [22], [23], [24] 中找到其中考虑了模型处理时间和单个物体重要性基于距离或预期碰撞时间。然而在这些工作中当在底层评估预测时仅使用了普通的 IoU 度量。因此我们的工作通过提供更精细的度量来补充这些提议。最后在模型补偿或细化方面文献提供了几种方案例如针对特征级扰动的鲁棒学习 [23]基于最坏情况分析的 2D 边界框后处理 [25]或诸如共形预测conformal prediction之类的统计方法 [26]。正如我们将看到的我们的工作独特地处理了使用鸟瞰图birds-eye-view, BEV表示的 3D 目标检测这种表示与下游规划功能建立了更直接的联系。我们还用所提出的 EC-IoU 度量修改了最先进的损失函数如上所述以实现更高的安全潜力。III. 预备知识为了说明在图 1 中所有预测框包括蓝色和红色的相对于它们对应的真实目标都有大约 0.7 的 IoU。尽管如此正如引言所述IoU 仅一般性地描述了预测与真实目标之间以目标为中心的关系。我们现在提出 EC-IoU 度量它额外考虑了自我的位置以便在真实目标周围出现不完美的预测时更好地反映碰撞倾向。IV. EC-IoU 度量总的来说我们的方法是首先定义真实目标中的安全关键点然后检查预测框对这些安全关键点的覆盖程度。A. 真实目标的安全关键加权为了描述真实目标 G 的安全关键性我们从基于距离的加权函数开始B. EC-IoU 度量的公式化利用上述加权函数我们现在定义我们的基于自我的交并比Ego-Centric Intersection-over-Union, EC-IoU度量它基于重叠部分的安全关键性即重要性来给预测 P 相对于真实目标 G 打分图 2: 示例展示了一个预测 \(\mathbf{P}_1\) 相比于另一个预测 \(\mathbf{P}_2\) 将因更好地覆盖了真实目标 \(\mathbf{G}\) 的安全关键部分而受到 EC-IoU 的青睐。如 \(\mathbf{G}\) 内的渐变效果所示安全关键性是基于点到原点的距离定义的颜色越深表示越关键。通俗地讲与预测 P2​ 相比具有更高 EC-IoU 分数的预测 P1​ 收集了更多真实目标中的重要点。图 2 提供了一个图示其中两个预测 P1​ 和 P2​ 试图匹配真实目标并达到相同的 IoU。然而通过考虑真实目标相对于自我智能体的位置以及由此提出的加权机制 ωG(x,y)我们使 EC-IoU 能够偏好蓝色框预测 P1​而不是红色框预测 P2​。然而剩下的一个挑战是计算公式 (8) 中定义的多边形加权面积。与可通过格林定理Greens Theorem由闭合形式的鞋带公式Shoelace Formula获得的未加权多边形面积公式 (2) 不同由于可变权重和面积边界即具有可变限度的积分加权扩展形式难以计算。因此在下文中我们将介绍一种有效近似多边形加权面积以及相应 EC-IoU 度量的方法。C. 计算加权面积和 EC-IoU虽然图 3 中的 EC-IoU 是使用几何平均数计算的但我们以极端情况 α8 为例在图 4 中展示了应用算术平均数以及由蒙特卡洛数值积分生成的原始曲线的结果。结果显示使用几何平均数和算术平均数的近似产生了高度相似的曲线并且几何平均数的误差总体上更小。最后我们注意到使用近似法有时会导致计算出的 EC-IoU 超过 1。我们在公式 (3) 中设置 α16 时观察到这种情况对此我们简单地截断 EC-IoU 值使计算结果保持在 [0,1] 范围内。D. 复杂性与使用在这最后一个小节中我们简要分析计算 EC-IoU 的时间复杂度并描述它如何集成到一般的模型评估和优化流程中。给定 n 对预测 P 和真实目标 G普通的 IoU 计算涉及几个步骤。首先需要找到 P∩G 的顶点对于现代算法最坏情况下的复杂度是 O(n3) [29]。然后需要对顶点进行排序这又需要 O(nlog⁡n) 的时间用于众所周知的技术例如归并排序。最后如前所述可以应用鞋带公式在 O(n) 时间内求得面积。现在考虑 EC-IoU 增加的加权步骤即公式 (19)只需要额外的 O(n) 时间因为每对预测和真实目标的相交多边形最多有 8 个顶点并且对单个点加权的时间是常数。因此EC-IoU 的整体计算时间应与 IoU 相当。EC-IoU 可以以两种直接的方式用于典型的目标检测评估协议。首先类似于 nuScenes 的真阳性度量 [6]在评估匹配的预测和真实目标对时它可以直接用作一种度量。其次对于通过基于 IoU 的亲和性来匹配预测和真实目标的协议例如 KITTI 基准测试 [7]EC-IoU 自然提供了一个额外的选项并引出了用于安全性表征的加权平均精度Average Precision, AP指标。相应地为了明确地提高这种面向安全的性能可以将 EC-IoU 集成到常见的模型优化损失函数中。例如考虑到原始的 IoU [15] 以及更先进的 DIoU [17] 和 EIoU [18]最后我们注意到对于支持 3D 边界框标注的基准测试即除了第 III 节中给出的 2D 表示元组外还沿重力轴方向具有 z 坐标和高度 hEC-IoU 也可以扩展到 3D 情况。具体来说由于加权机制不涉及重力轴我们只需将加权面积与其高度相乘得到体积然后计算 3D 度量即可。因此我们可以同时处理 BEV 和 3D 场景如下面的实验所示。V. 实验结果与讨论本节展示并讨论我们的实验结果包括使用合成数据集和真实世界数据集。A. 基准测试基于 EC-IoU 的损失函数图 5: 模拟设置。图 6: 提出的基于 EC-IoU 的损失函数及其对应版本的优化结果。B. 真实世界目标检测器评估我们现在将实验扩展到真实世界数据集首先使用 nuScenes [6] 和 KITTI [7] 基准测试评估流行的目标检测器。1) nuScenes:如第 IV-D 节所述在将预测与最近的真实目标匹配后nuScenes 计算 NuScenes 检测分数NDS和一组真阳性TP度量例如平移和旋转误差 [6]。因此IoU 和 EC-IoU 可以自然地作为两个额外的度量来反映预测与真实目标之间的整体空间关系。在实现方面我们利用 MMDetection3D 平台 [8] 并测试了性能顶尖的模型包括两个基于激光雷达的和两个基于摄像头的。表 I 总结了 car、truck 和 pedestrian 三个物体类别在 NDS 以及 TP IoU 和 EC-IoU 方面的评估结果。结果表明IoU 和 EC-IoU 都与 NDS 正相关。值得注意的是从所有模型来看我们看到 truck 的 EC-IoU 相比 IoU 有显著下降。这意味着 EC-IoU 提供了一个额外的评估维度可以表明某个特定类别在安全性方面是否受到损害。在这种情况下truck 是突出的类别可能是因为其较大的尺寸难以从自我的角度被正确覆盖。因此应该采取缓解措施例如通过使用某个因子放大预测框 [25], [26]。2) KITTI:与 nuScenes 基准测试不同KITTI 首先使用具有预定义阈值的 IoU 来匹配预测集和真实目标集然后通过计数真阳性和假阴性预测来计算标准的 AP [7]。我们在此过程中使用 EC-IoU 补充 IoU从而得到一个并行的 EC-AP 度量。本质上通过这样做未达到足够 EC-IoU 的预测将被直接移除而具有较高 EC-IoU 的预测将在匹配过程中被优先选择。我们关注两个在 MMDetection3D 平台上可用的流行的基于摄像头的模型 [8]包括 SMOKE [34] 和 PGD [30]。结果整理在表 II 的上两行。由于样本数量少我们不报告 cyclist 类别。对于 pedestrian 和 car我们遵循官方协议使用严格的阈值分别为 0.5 和 0.7并报告中等难度类别的 AP40 [7]。从表 II 中我们看到更先进的 PGD 确实在大多数情况下比 SMOKE 取得了更高的分数。然而对于 car 类别和总体 mAP它的 EC-AP 分数较低如斜体所示。这表明虽然 PGD 通常能比 SMOKE 更好地定位物体但它并不一定将其预测框从自我视角放置在物体前方。观察到这一现象我们现在对 PGD 进行微调并在下文中讨论结果。表 I: nuScenes 数据集中的模型评估结果 [6] (Ped.Pedestrian)。所有模型的卡车类别 EC-IoU 分数均显著较低表明从自我视角完全捕捉该类别存在困难。模型模态NDSCarTruckPed.IoUEC-IoUIoUEC-IoUIoUEC-IoUSSN [31]激光雷达45.490.740.730.740.610.530.54CenterPoint [32]激光雷达54.320.760.740.750.670.540.56FCOS3D [33]摄像头30.830.600.610.680.530.210.23PGD [30]摄像头31.490.620.660.710.530.230.25表 II: KITTI 数据集中的模型评估和微调结果 [7] (Ped.Pedestrian; Std.Standard)。总体而言使用 EC-IoU 损失得到的结果不仅在 EC-AP 方面更安全而且在标准 AP 方面也更精确。模型模态Ped. AP400.5Car AP400.5mAP40Std.ECStd.ECStd.ECSMOKE [34]摄像头3.574.6512.0216.835.357.48PGD [30]摄像头4.25.5912.8214.485.937.23 LIoULIoU​摄像头3.724.4515.5817.95 (23.6%)7.219.36 (29.5%) LEC−IoULEC−IoU​摄像头4.555.2614.6318.45 (27.4%)7.4210.07 (39.3%)包括 SMOKE [34] 和 PGD [30]。结果整理在表 II 的上两行。由于样本数量少我们不报告 cyclist 类别。对于 pedestrian 和 car我们遵循官方协议使用严格的阈值分别为 0.5 和 0.7并报告中等难度类别的 AP40 [7]。从表 II 中我们看到更先进的 PGD 确实在大多数情况下比 SMOKE 取得了更高的分数。然而对于 car 类别和总体 mAP它的 EC-AP 分数较低如斜体所示。这表明虽然 PGD 通常能比 SMOKE 更好地定位物体但它并不一定将其预测框从自我视角放置在物体前方。观察到这一现象我们现在对 PGD 进行微调并在下文中讨论结果。C. 真实世界目标检测器微调见这导致了两个类别之间的性能差异。为了未来的改进EC-IoU 可以与物体层面的重要性加权方案相结合以强调特定类别或某些距离范围例如 [23], [24]。VI. 结论在这项工作中我们开发了 EC-IoU这是一种安全驱动的评估方法扩展了现有的如 IoU 等方法。给定一个物体当两个预测 P1​ 和 P2​ 具有相同的 IoU 值时具有更高 EC-IoU 值的 P1​ 意味着其预测位置略微更接近自我车辆从而防止下游规划算法出现安全意外即物体比预期的更近。我们展示了 EC-IoU 的数学性质并由于闭合形式计算的难解性基于中值定理提出了一种精确且高效的近似方法。我们使用模拟实验以及具有代表性的 nuScenes 和 KITTI 数据集进行了实验证实了我们提出的方法在明确的安全性表征方面的优势。在更广泛的层面上我们的工作与近期的研究一致并标志着将安全原则纳入学习型算法设计和评估的一次新尝试。此外它提供了许多可供探索的途径。除了进一步的评估我们考虑使控制 EC-IoU 加权机制的参数 α 更具自适应性能够根据物体距离或碰撞时间进行调整。另一个有趣的方向是使用 EC-IoU 作为在线运行时监控的指标。