1. 项目概述为什么我们需要雷达-相机BEV多任务学习在自动驾驶的感知系统里我们通常需要同时完成好几件事不仅要识别出周围车辆、行人的3D位置和大小3D目标检测还得搞清楚哪里是马路、哪里是人行道、哪里是停车线BEV地图分割。过去工程师们往往为每个任务单独训练一个模型比如一个模型专门做检测另一个模型专门做分割。这样做直观上似乎能保证每个任务都达到最优性能但实际部署时问题就来了——计算成本翻倍内存占用飙升推理延迟增加这对于车载计算平台来说简直是“不可承受之重”。更关键的是检测和分割这两个任务在物理世界里是紧密关联的。想象一下一个3D检测框精确地框住了一辆车那么这辆车在BEV地图上对应的区域大概率就应该被分割为“车辆”类别。反过来一片被分割为“可行驶区域”的BEV像素也为车辆检测提供了重要的空间先验车辆不太可能出现在人行道上。这种天然的互补性在单任务模型中完全被浪费了。因此多任务学习MTL成为了一个必然的选择用一个共享的骨干网络Backbone同时处理雷达和相机的数据生成一个统一的鸟瞰图BEV特征表示然后让检测头和分割头从这个共享特征中“各取所需”。这能大幅节省计算但随之而来的是“负迁移”的经典难题任务A学到的知识可能会干扰任务B的学习导致联合训练的性能还不如单独训练。现有的雷达-相机BEV融合方法无论是专注于检测的RCBEVDet还是专注于分割的BEVCar都只是在各自的单任务赛道上狂奔。即使有像RCBEVDet这样的工作同时输出了检测和分割结果其任务头之间也是“老死不相往来”没有进行任何显式的特征交流。这就像让两个专家坐在同一个房间里却禁止他们交谈——资源是共享了但智慧的碰撞并没有发生。我们提出的CTABCross-Task Attention Bridge跨任务注意力桥就是为了打破这堵“墙”。它的核心思想非常直接既然检测和分割的特征在BEV空间里是几何对齐的都对应着真实世界的同一个坐标点那为什么不让他们直接“对话”呢让检测分支告诉分割分支“我这里有一个车边界应该更清晰一点”也让分割分支告诉检测分支“我这一片都是马路你可以更自信地在这里找车”。CTAB就是一个轻量级的、双向的“翻译官”基于多尺度可变形注意力机制高效地促成了这场对话。2. 核心架构拆解从数据到任务的完整流水线要理解CTAB如何工作我们需要先俯瞰整个系统的架构。我们的框架以强大的雷达-相机BEV融合检测器RCBEVDet为基石并为其增配了分割分支和CTAB模块。2.1 共享BEV骨干网络多模态信息的统一战场整个流程的起点是多模态传感器数据。输入包括6路环视相机图像分辨率900x1600提供丰富的纹理、颜色和语义信息。5个雷达点云多帧累积提供精确的径向距离、多普勒速度信息且不受光照、天气影响。这些数据通过一个双流骨干网络进行处理图像流采用类似BEVDepth4D的范式。ResNet-50作为图像主干网络提取多视角特征。关键在于我们通过一个显式的深度估计网络为每个图像像素预测其深度分布然后将图像特征根据深度“抬升”并池化到预定义的3D体素空间最后再压缩到2D的BEV网格上。这个过程还利用了时序信息相邻帧通过时间立体匹配来提升深度估计的准确性。雷达流使用RadarBEVNet。雷达点云不像图像那样密集我们通过一个精心设计的网络将稀疏的雷达点编码为稠密的BEV特征图。这里采用了双流编码分别处理雷达点的空间位置和速度特性再通过跨模态的“注入-提取”模块初步与图像特征进行交互。最终相机BEV特征和雷达BEV特征通过一个交叉注意力融合模块CAMF进行融合生成了一个统一的、共享的BEV特征图F_bev。这个特征图的尺寸是[B, 256, 128, 128]意味着它覆盖了102.4米 x 102.4米的范围每个网格cell的分辨率是0.8米。这256个通道里浓缩了来自相机和雷达的所有互补信息。设计思考为什么选择0.8米的分辨率这是一个在计算成本和感知精度之间的权衡。对于车辆级别的3D检测目标尺寸通常大于1米0.8米的分辨率已经足够。但对于地图分割中的细长结构如宽度仅15-30厘米的车道线、停止线这个分辨率就捉襟见肘了。这个矛盾直接引出了后续“分辨率不对称”的设计。2.2 任务分支的独立与交互共享的F_bev生成后兵分两路检测分支直接消费F_bev。我们采用经典的CenterHead这是一个基于关键点物体中心的检测头。它在BEV平面上预测热图判断某个位置是否是物体中心并对每个正样本回归其3D框的属性长宽高、朝向、速度等。检测头工作在原始的128x128分辨率上。分割分支不能直接使用F_bev原因有二一是通道数不匹配检测需要256维几何特征分割可能不需要这么高二是需要提取更抽象的语义信息。因此我们设计了一个分割解码器。分割解码器由三部分组成输入投影层一个3x3卷积将256通道的F_bev降维到128通道后接实例归一化Instance Norm, IN和ReLU激活。三个残差块每个块包含两个3x3卷积层都使用IN和ReLU并通过跳跃连接Skip Connection来稳定训练、促进梯度流动。预测头最终通过一个1x1卷积将128通道映射到C个类别如7类的输出。这个解码器输出的中间特征F_seg在第三个残差块之后将被送入CTAB模块与检测特征进行交互。最终的分割预测则是在F_seg经过CTAB增强和上采样之后才产生。2.3 BEV上采样模块为分割赋予“火眼金睛”如前所述0.8米的分辨率对于检测够用但对于分割细长物体是灾难性的。一个宽度30厘米的停止线在0.8米的网格里连半个像素都占不满信息丢失严重。因此我们为分割分支单独设计了一个BEV上采样模块。这个模块非常轻量仅增加0.3M参数它的作用是将分割分支的特征从128x128上采样到200x200分辨率提升到0.5米/网格。操作流程如下对输入特征F_seg进行双线性插值上采样得到粗略的高分辨率特征U。让U通过一个轻量的残差 refinement 块Conv3x3 - IN - ReLU - Conv3x3 - IN。将 refinement 块的输出与最初的U相加残差连接。实操心得为什么不是简单插值双线性插值是平滑的会模糊边缘。而残差 refinement 块的作用就是学习如何恢复这些在插值过程中丢失的高频细节和锐利边界。这相当于让网络自己学会“猜”出更精细的结构。这种设计是“任务特异性”的只作用于分割分支因此我们无需重新训练整个高分辨率的骨干网络保护了预训练好的检测头实现了高效的“分辨率不对称”。3. CTAB模块深度解析双向特征交换的引擎CTAB是整个工作的灵魂它的目标是在检测特征F_det和分割特征F_seg之间建立高效、有针对性的通信。3.1 为什么是可变形注意力在BEV这个2D网格空间里检测和分割特征在空间上是严格对齐的。最直接的想法是在每个空间位置做特征相加或拼接。但这样太“硬”了缺乏灵活性。一个物体的几何信息来自检测可能对其自身轮廓的分割有帮助也可能对周围路面的分割有影响比如阴影区域。我们需要一种能够自适应地、非局部地捕捉这种空间关系机制。可变形注意力Deformable Attention完美契合了这个需求。相比于标准Transformer注意力O(N²)的复杂度对于128x128的BEV网格N16384计算量巨大可变形注意力是O(NK)。它让每个查询Query位置学习K个采样偏移量然后只去关注这K个位置的特征。这就像让每个任务分支的“侦察兵”不是漫无目的地观察整个战场而是学会去几个最关键的位置收集情报。在我们的设置中我们使用多尺度可变形注意力MSDA但这里“多尺度”的L1因为我们只有一个共享的BEV特征图F_bev。我们设置注意力头数h8每个头关注16维的子空间总维度d128。每个查询学习K4个采样点这是一个经验性的平衡点足以覆盖BEV中典型物体的足迹同时保持较低的计算开销。3.2 CTAB的工作流程投影、交互、融合CTAB的内部数据流可以拆解为三步参考架构图特征投影与对齐检测特征F_det(256通道) 和分割特征F_seg(128通道) 首先分别通过一个1x1卷积层将通道数统一投影到共享的隐藏维度d128。这里使用了组归一化Group Normalization, GN和ReLU激活。为什么用GN/IN而不是BN这是我们在早期实验中踩过的一个大坑。分割解码器和CTAB模块是从头开始训练的而检测骨干是预训练的。如果使用批归一化BN在训练初期这些新模块的BN层统计量均值和方差极不稳定并且训练模式使用batch统计和评估模式使用running统计之间会产生巨大的差距。在BEV多视角设定下每个样本的多个相机视图相关性很强导致batch内的统计多样性不足加剧了这个问题。实例归一化IN和组归一化GN对每个样本独立归一化彻底消除了训练-评估的差异保证了训练的稳定性。投影后的特征被展平为序列形式准备进行注意力计算。双向可变形交叉注意力分割到检测Seg-Det以检测特征为查询Q去分割特征的值V里查找信息。这相当于让检测器“询问”分割图“我关注的这个位置在语义上是什么是马路还是人行道这能帮助我确认这里出现车辆的可能性或者调整框的方向吗”检测到分割Det-Seg以分割特征为查询Q去检测特征的值V里查找信息。这相当于让分割网络“询问”检测器“你这个位置检测到了一个物体它的边界和尺寸是怎样的能帮我更准确地画出这个物体的分割掩码吗”这两个注意力操作是并行执行的。它们共享一组在BEV空间均匀生成的参考点坐标。门控残差融合经过注意力机制增强后的特征需要通过一个3x3卷积和GN层投影回各自分支原始的通道维度检测256分割128。最关键的一步我们不是直接将这个“外来信息”加回去而是通过一个可学习的置信度门控σ(g)进行缩放。σ是sigmoid函数将门控值g映射到(0,1)之间。公式表示为F_det σ(g_det) * Proj(Attn_Seg2Det) F_det初始时我们将g_det和g_seg都设置为-2.0这样σ(-2.0)≈0.12。这是一个非常谨慎的初始化。在训练初期CTAB模块的参数是随机的其产生的交叉注意力信号很可能是噪声。这个很小的门控值0.12极大地抑制了噪声防止其破坏预训练好的检测特征和刚初始化的分割特征。随着训练进行网络会自己学会逐渐“打开”这两个门门控值上升的幅度反映了该方向跨任务信息的有用程度。这种门控残差设计使得CTAB成为一个温和的“特征优化器”而不是粗暴的“特征替换器”。3.3 多任务损失平衡让检测和分割“和平共处”检测损失L_det和分割损失L_seg的量纲和数值范围通常差异很大。简单相加会导致一个任务主导训练另一个任务学不好。我们采用同方差不确定性加权HUW来自动平衡损失。 总损失L_total 1/(2σ_det²) * L_det log σ_det 1/(2σ_seg²) * L_seg log σ_seg其中σ_det和σ_seg是可学习的参数。这个方法的直观解释是任务的不确定性噪声σ越大其损失的权重1/(2σ²)就越小。网络会倾向于给更难以学习不确定性高的任务分配更小的权重从而实现自动平衡。我们将log σ的数值限制在1.5以内以保证数值稳定。4. 实验分析与实战洞见我们在nuScenes数据集上进行了全面的实验。nuScenes包含1000个驾驶场景配有6个相机和5个雷达是评测自动驾驶感知系统的标准考场。4.1 性能表现CTAB带来了什么我们将模型与现有的雷达-相机方法对比结论非常清晰CTAB是第一个在雷达-相机BEV框架下实现检测与分割联合优化并显式交互的工作。与我们的多任务基线模型MTL Baseline即只有共享骨干和独立任务头无CTAB相比分割性能提升在7个类别的平均交并比mIoU-7上提升了0.6个百分点在4个核心类别可行驶区域、人行横道、人行道、车辆上提升了0.6个百分点。检测性能保持检测的关键指标NDSNuScenes Detection Score几乎保持不变55.7 vs 55.6mAP完全一致。值得注意的是朝向误差mAOE从0.408降低到了0.400。这说明分割提供的场景上下文信息帮助检测器更准确地判断了物体的朝向。高效性CTAB模块本身仅增加0.58M参数相对于3800万参数的骨干网络开销仅占1.4%。整个多任务框架含解码器和上采样相比单检测模型总参数量增加仅5.8%却同时完成了两个任务避免了运行两个独立模型带来的近两倍骨干网络计算成本。4.2 深入分析谁受益更多为什么对各类别IoU的细致分析揭示了CTAB起作用的内在逻辑提升显著人行横道1.8、停止线1.8、车道分隔线0.7。这些类别都是“细长”或“稀疏”的物体。提升微小可行驶区域、停车场、人行道、车辆等“大面积”或“密集”物体IoU变化不超过±0.2。这个模式指向一个核心结论CTAB的增益主要来源于“雪中送炭”而非“锦上添花”。对于本身特征明显、基线模型已经能较好分割的大面积区域来自检测的几何信息增益有限。而对于那些在图像中纹理弱、在雷达点云中反射点稀疏的细长结构检测分支提供的“这里有一个物体边界”的强几何先验信息就成了分割网络弥合歧义、锐化边界的关键线索。这也印证了我们的设计初衷利用检测的物体级几何来辅助分割。4.3 门控演化故事自己会说话训练过程中两个门控值σ(g_det)和σ(g_seg)的演化曲线非常有意思。虽然它们从相同的低值0.12开始但分割门控Seg Gate的上升速度和最终值都明显高于检测门控Det Gate。最终分割门控大约在0.26而检测门控大约在0.18存在约1.5倍的不对称性。这个现象完全是由数据驱动学习出来的它告诉我们信息流的不对称性检测特征对分割任务的帮助通过Det-Seg路径大于分割特征对检测任务的帮助通过Seg-Det路径。原因分析检测特征蕴含了精确的物体位置、尺寸和方向这些是锐化分割边界的“硬信息”。而分割特征提供的场景语义上下文如“这是马路”对于已经能从雷达和相机融合特征中强大地推断出物体存在的检测器来说更多是一种“软约束”或验证信息。设计验证这个学习到的非对称性证明了我们为两个方向设置独立、可学习门控的必要性。如果使用固定权重或共享门控就无法捕捉和利用这种天然的任务间信息价值差异。4.4 实现细节与避坑指南数据增强的一致性在BEV空间进行随机翻转、旋转和缩放时必须确保所有模态的数据同步变换。对于3D检测框可以直接应用相同的仿射变换。对于分割的GT掩码我们使用最近邻插值进行变换。这里必须用最近邻而非双线性因为类别标签是离散的整数双线性插值会产生无效的浮点数类别破坏训练。车辆掩码的生成nuScenes数据集没有提供车辆实例的BEV分割标注。我们从3D检测框的标注中将车辆的3D框投影到BEV平面生成一个矩形的二值掩码作为分割的“车辆”类别GT。这是一个实用且常见的做法。训练策略我们采用分阶段训练策略可能更稳定。首先用预训练的RCBEVDet检测权重初始化共享骨干和检测头冻结分割分支和CTAB单独训练检测任务几个epoch让模型预热。然后解冻所有参数用较小的学习率进行端到端的联合训练。这有助于稳定多任务学习的初期阶段。归一化层的选择再次强调在涉及多任务、部分预训练的网络中对于新添加的、从头训练的部分如分割解码器、CTAB坚决使用Instance Norm或Group Norm避免使用Batch Norm。这是保证训练收敛性和消除训练-评估差距的生命线。5. 局限性与未来展望尽管CTAB取得了积极的效果但仍有改进空间分辨率瓶颈BEV上采样模块虽然将分割输出提升到了200x200但骨干网络提取的BEV特征F_bev本身仍然是128x1280.8米分辨率。上采样可以细化但无法创造底层特征中不存在的高频信息。未来可以考虑更高分辨率的BEV特征提取或采用特征金字塔网络FPN来融合多尺度特征。骨干网络限制我们使用的是ResNet-50而一些顶尖的分割方法如BEVCar使用了更大的Vision TransformerViT-B。骨干网络的能力上限直接影响最终性能。将ResNet-50替换为DINOv2等自监督预训练的ViT有望显著提升对细长结构的感知能力。更精细的门控机制当前的门控是每个任务分支一个标量。一个自然的扩展是将其变为空间感知的门控图U(x, y)。例如在物体中心附近Seg-Det的门控可以增强让检测器更多关注分割提供的局部语义在空旷区域则可以抑制避免引入噪声。这可以实现更动态、更精准的跨任务调制。任务自适应的雷达融合目前雷达和相机特征在早期就融合成了一个共享的F_bev。但检测和分割任务对雷达信息的敏感度和需求点可能不同检测更关心动态物体的速度分割更关心静态地面的轮廓。未来可以探索一种“任务感知”的雷达融合路由机制让雷达特征流经不同的权重后再分别服务于检测和分割分支。CTAB作为一个轻量、通用的跨任务注意力桥其思想并不局限于雷达-相机融合也不局限于检测与分割。任何在共享特征空间下、任务间存在几何或语义相关性的多任务学习场景如3D检测与跟踪、语义分割与深度估计等都可以尝试引入类似的显式交互机制以极小的计算代价挖掘任务间的协同潜力迈向更高效、更智能的自动驾驶感知系统。
CTAB:基于跨任务注意力桥的雷达-相机BEV多任务学习
发布时间:2026/5/28 4:18:19
1. 项目概述为什么我们需要雷达-相机BEV多任务学习在自动驾驶的感知系统里我们通常需要同时完成好几件事不仅要识别出周围车辆、行人的3D位置和大小3D目标检测还得搞清楚哪里是马路、哪里是人行道、哪里是停车线BEV地图分割。过去工程师们往往为每个任务单独训练一个模型比如一个模型专门做检测另一个模型专门做分割。这样做直观上似乎能保证每个任务都达到最优性能但实际部署时问题就来了——计算成本翻倍内存占用飙升推理延迟增加这对于车载计算平台来说简直是“不可承受之重”。更关键的是检测和分割这两个任务在物理世界里是紧密关联的。想象一下一个3D检测框精确地框住了一辆车那么这辆车在BEV地图上对应的区域大概率就应该被分割为“车辆”类别。反过来一片被分割为“可行驶区域”的BEV像素也为车辆检测提供了重要的空间先验车辆不太可能出现在人行道上。这种天然的互补性在单任务模型中完全被浪费了。因此多任务学习MTL成为了一个必然的选择用一个共享的骨干网络Backbone同时处理雷达和相机的数据生成一个统一的鸟瞰图BEV特征表示然后让检测头和分割头从这个共享特征中“各取所需”。这能大幅节省计算但随之而来的是“负迁移”的经典难题任务A学到的知识可能会干扰任务B的学习导致联合训练的性能还不如单独训练。现有的雷达-相机BEV融合方法无论是专注于检测的RCBEVDet还是专注于分割的BEVCar都只是在各自的单任务赛道上狂奔。即使有像RCBEVDet这样的工作同时输出了检测和分割结果其任务头之间也是“老死不相往来”没有进行任何显式的特征交流。这就像让两个专家坐在同一个房间里却禁止他们交谈——资源是共享了但智慧的碰撞并没有发生。我们提出的CTABCross-Task Attention Bridge跨任务注意力桥就是为了打破这堵“墙”。它的核心思想非常直接既然检测和分割的特征在BEV空间里是几何对齐的都对应着真实世界的同一个坐标点那为什么不让他们直接“对话”呢让检测分支告诉分割分支“我这里有一个车边界应该更清晰一点”也让分割分支告诉检测分支“我这一片都是马路你可以更自信地在这里找车”。CTAB就是一个轻量级的、双向的“翻译官”基于多尺度可变形注意力机制高效地促成了这场对话。2. 核心架构拆解从数据到任务的完整流水线要理解CTAB如何工作我们需要先俯瞰整个系统的架构。我们的框架以强大的雷达-相机BEV融合检测器RCBEVDet为基石并为其增配了分割分支和CTAB模块。2.1 共享BEV骨干网络多模态信息的统一战场整个流程的起点是多模态传感器数据。输入包括6路环视相机图像分辨率900x1600提供丰富的纹理、颜色和语义信息。5个雷达点云多帧累积提供精确的径向距离、多普勒速度信息且不受光照、天气影响。这些数据通过一个双流骨干网络进行处理图像流采用类似BEVDepth4D的范式。ResNet-50作为图像主干网络提取多视角特征。关键在于我们通过一个显式的深度估计网络为每个图像像素预测其深度分布然后将图像特征根据深度“抬升”并池化到预定义的3D体素空间最后再压缩到2D的BEV网格上。这个过程还利用了时序信息相邻帧通过时间立体匹配来提升深度估计的准确性。雷达流使用RadarBEVNet。雷达点云不像图像那样密集我们通过一个精心设计的网络将稀疏的雷达点编码为稠密的BEV特征图。这里采用了双流编码分别处理雷达点的空间位置和速度特性再通过跨模态的“注入-提取”模块初步与图像特征进行交互。最终相机BEV特征和雷达BEV特征通过一个交叉注意力融合模块CAMF进行融合生成了一个统一的、共享的BEV特征图F_bev。这个特征图的尺寸是[B, 256, 128, 128]意味着它覆盖了102.4米 x 102.4米的范围每个网格cell的分辨率是0.8米。这256个通道里浓缩了来自相机和雷达的所有互补信息。设计思考为什么选择0.8米的分辨率这是一个在计算成本和感知精度之间的权衡。对于车辆级别的3D检测目标尺寸通常大于1米0.8米的分辨率已经足够。但对于地图分割中的细长结构如宽度仅15-30厘米的车道线、停止线这个分辨率就捉襟见肘了。这个矛盾直接引出了后续“分辨率不对称”的设计。2.2 任务分支的独立与交互共享的F_bev生成后兵分两路检测分支直接消费F_bev。我们采用经典的CenterHead这是一个基于关键点物体中心的检测头。它在BEV平面上预测热图判断某个位置是否是物体中心并对每个正样本回归其3D框的属性长宽高、朝向、速度等。检测头工作在原始的128x128分辨率上。分割分支不能直接使用F_bev原因有二一是通道数不匹配检测需要256维几何特征分割可能不需要这么高二是需要提取更抽象的语义信息。因此我们设计了一个分割解码器。分割解码器由三部分组成输入投影层一个3x3卷积将256通道的F_bev降维到128通道后接实例归一化Instance Norm, IN和ReLU激活。三个残差块每个块包含两个3x3卷积层都使用IN和ReLU并通过跳跃连接Skip Connection来稳定训练、促进梯度流动。预测头最终通过一个1x1卷积将128通道映射到C个类别如7类的输出。这个解码器输出的中间特征F_seg在第三个残差块之后将被送入CTAB模块与检测特征进行交互。最终的分割预测则是在F_seg经过CTAB增强和上采样之后才产生。2.3 BEV上采样模块为分割赋予“火眼金睛”如前所述0.8米的分辨率对于检测够用但对于分割细长物体是灾难性的。一个宽度30厘米的停止线在0.8米的网格里连半个像素都占不满信息丢失严重。因此我们为分割分支单独设计了一个BEV上采样模块。这个模块非常轻量仅增加0.3M参数它的作用是将分割分支的特征从128x128上采样到200x200分辨率提升到0.5米/网格。操作流程如下对输入特征F_seg进行双线性插值上采样得到粗略的高分辨率特征U。让U通过一个轻量的残差 refinement 块Conv3x3 - IN - ReLU - Conv3x3 - IN。将 refinement 块的输出与最初的U相加残差连接。实操心得为什么不是简单插值双线性插值是平滑的会模糊边缘。而残差 refinement 块的作用就是学习如何恢复这些在插值过程中丢失的高频细节和锐利边界。这相当于让网络自己学会“猜”出更精细的结构。这种设计是“任务特异性”的只作用于分割分支因此我们无需重新训练整个高分辨率的骨干网络保护了预训练好的检测头实现了高效的“分辨率不对称”。3. CTAB模块深度解析双向特征交换的引擎CTAB是整个工作的灵魂它的目标是在检测特征F_det和分割特征F_seg之间建立高效、有针对性的通信。3.1 为什么是可变形注意力在BEV这个2D网格空间里检测和分割特征在空间上是严格对齐的。最直接的想法是在每个空间位置做特征相加或拼接。但这样太“硬”了缺乏灵活性。一个物体的几何信息来自检测可能对其自身轮廓的分割有帮助也可能对周围路面的分割有影响比如阴影区域。我们需要一种能够自适应地、非局部地捕捉这种空间关系机制。可变形注意力Deformable Attention完美契合了这个需求。相比于标准Transformer注意力O(N²)的复杂度对于128x128的BEV网格N16384计算量巨大可变形注意力是O(NK)。它让每个查询Query位置学习K个采样偏移量然后只去关注这K个位置的特征。这就像让每个任务分支的“侦察兵”不是漫无目的地观察整个战场而是学会去几个最关键的位置收集情报。在我们的设置中我们使用多尺度可变形注意力MSDA但这里“多尺度”的L1因为我们只有一个共享的BEV特征图F_bev。我们设置注意力头数h8每个头关注16维的子空间总维度d128。每个查询学习K4个采样点这是一个经验性的平衡点足以覆盖BEV中典型物体的足迹同时保持较低的计算开销。3.2 CTAB的工作流程投影、交互、融合CTAB的内部数据流可以拆解为三步参考架构图特征投影与对齐检测特征F_det(256通道) 和分割特征F_seg(128通道) 首先分别通过一个1x1卷积层将通道数统一投影到共享的隐藏维度d128。这里使用了组归一化Group Normalization, GN和ReLU激活。为什么用GN/IN而不是BN这是我们在早期实验中踩过的一个大坑。分割解码器和CTAB模块是从头开始训练的而检测骨干是预训练的。如果使用批归一化BN在训练初期这些新模块的BN层统计量均值和方差极不稳定并且训练模式使用batch统计和评估模式使用running统计之间会产生巨大的差距。在BEV多视角设定下每个样本的多个相机视图相关性很强导致batch内的统计多样性不足加剧了这个问题。实例归一化IN和组归一化GN对每个样本独立归一化彻底消除了训练-评估的差异保证了训练的稳定性。投影后的特征被展平为序列形式准备进行注意力计算。双向可变形交叉注意力分割到检测Seg-Det以检测特征为查询Q去分割特征的值V里查找信息。这相当于让检测器“询问”分割图“我关注的这个位置在语义上是什么是马路还是人行道这能帮助我确认这里出现车辆的可能性或者调整框的方向吗”检测到分割Det-Seg以分割特征为查询Q去检测特征的值V里查找信息。这相当于让分割网络“询问”检测器“你这个位置检测到了一个物体它的边界和尺寸是怎样的能帮我更准确地画出这个物体的分割掩码吗”这两个注意力操作是并行执行的。它们共享一组在BEV空间均匀生成的参考点坐标。门控残差融合经过注意力机制增强后的特征需要通过一个3x3卷积和GN层投影回各自分支原始的通道维度检测256分割128。最关键的一步我们不是直接将这个“外来信息”加回去而是通过一个可学习的置信度门控σ(g)进行缩放。σ是sigmoid函数将门控值g映射到(0,1)之间。公式表示为F_det σ(g_det) * Proj(Attn_Seg2Det) F_det初始时我们将g_det和g_seg都设置为-2.0这样σ(-2.0)≈0.12。这是一个非常谨慎的初始化。在训练初期CTAB模块的参数是随机的其产生的交叉注意力信号很可能是噪声。这个很小的门控值0.12极大地抑制了噪声防止其破坏预训练好的检测特征和刚初始化的分割特征。随着训练进行网络会自己学会逐渐“打开”这两个门门控值上升的幅度反映了该方向跨任务信息的有用程度。这种门控残差设计使得CTAB成为一个温和的“特征优化器”而不是粗暴的“特征替换器”。3.3 多任务损失平衡让检测和分割“和平共处”检测损失L_det和分割损失L_seg的量纲和数值范围通常差异很大。简单相加会导致一个任务主导训练另一个任务学不好。我们采用同方差不确定性加权HUW来自动平衡损失。 总损失L_total 1/(2σ_det²) * L_det log σ_det 1/(2σ_seg²) * L_seg log σ_seg其中σ_det和σ_seg是可学习的参数。这个方法的直观解释是任务的不确定性噪声σ越大其损失的权重1/(2σ²)就越小。网络会倾向于给更难以学习不确定性高的任务分配更小的权重从而实现自动平衡。我们将log σ的数值限制在1.5以内以保证数值稳定。4. 实验分析与实战洞见我们在nuScenes数据集上进行了全面的实验。nuScenes包含1000个驾驶场景配有6个相机和5个雷达是评测自动驾驶感知系统的标准考场。4.1 性能表现CTAB带来了什么我们将模型与现有的雷达-相机方法对比结论非常清晰CTAB是第一个在雷达-相机BEV框架下实现检测与分割联合优化并显式交互的工作。与我们的多任务基线模型MTL Baseline即只有共享骨干和独立任务头无CTAB相比分割性能提升在7个类别的平均交并比mIoU-7上提升了0.6个百分点在4个核心类别可行驶区域、人行横道、人行道、车辆上提升了0.6个百分点。检测性能保持检测的关键指标NDSNuScenes Detection Score几乎保持不变55.7 vs 55.6mAP完全一致。值得注意的是朝向误差mAOE从0.408降低到了0.400。这说明分割提供的场景上下文信息帮助检测器更准确地判断了物体的朝向。高效性CTAB模块本身仅增加0.58M参数相对于3800万参数的骨干网络开销仅占1.4%。整个多任务框架含解码器和上采样相比单检测模型总参数量增加仅5.8%却同时完成了两个任务避免了运行两个独立模型带来的近两倍骨干网络计算成本。4.2 深入分析谁受益更多为什么对各类别IoU的细致分析揭示了CTAB起作用的内在逻辑提升显著人行横道1.8、停止线1.8、车道分隔线0.7。这些类别都是“细长”或“稀疏”的物体。提升微小可行驶区域、停车场、人行道、车辆等“大面积”或“密集”物体IoU变化不超过±0.2。这个模式指向一个核心结论CTAB的增益主要来源于“雪中送炭”而非“锦上添花”。对于本身特征明显、基线模型已经能较好分割的大面积区域来自检测的几何信息增益有限。而对于那些在图像中纹理弱、在雷达点云中反射点稀疏的细长结构检测分支提供的“这里有一个物体边界”的强几何先验信息就成了分割网络弥合歧义、锐化边界的关键线索。这也印证了我们的设计初衷利用检测的物体级几何来辅助分割。4.3 门控演化故事自己会说话训练过程中两个门控值σ(g_det)和σ(g_seg)的演化曲线非常有意思。虽然它们从相同的低值0.12开始但分割门控Seg Gate的上升速度和最终值都明显高于检测门控Det Gate。最终分割门控大约在0.26而检测门控大约在0.18存在约1.5倍的不对称性。这个现象完全是由数据驱动学习出来的它告诉我们信息流的不对称性检测特征对分割任务的帮助通过Det-Seg路径大于分割特征对检测任务的帮助通过Seg-Det路径。原因分析检测特征蕴含了精确的物体位置、尺寸和方向这些是锐化分割边界的“硬信息”。而分割特征提供的场景语义上下文如“这是马路”对于已经能从雷达和相机融合特征中强大地推断出物体存在的检测器来说更多是一种“软约束”或验证信息。设计验证这个学习到的非对称性证明了我们为两个方向设置独立、可学习门控的必要性。如果使用固定权重或共享门控就无法捕捉和利用这种天然的任务间信息价值差异。4.4 实现细节与避坑指南数据增强的一致性在BEV空间进行随机翻转、旋转和缩放时必须确保所有模态的数据同步变换。对于3D检测框可以直接应用相同的仿射变换。对于分割的GT掩码我们使用最近邻插值进行变换。这里必须用最近邻而非双线性因为类别标签是离散的整数双线性插值会产生无效的浮点数类别破坏训练。车辆掩码的生成nuScenes数据集没有提供车辆实例的BEV分割标注。我们从3D检测框的标注中将车辆的3D框投影到BEV平面生成一个矩形的二值掩码作为分割的“车辆”类别GT。这是一个实用且常见的做法。训练策略我们采用分阶段训练策略可能更稳定。首先用预训练的RCBEVDet检测权重初始化共享骨干和检测头冻结分割分支和CTAB单独训练检测任务几个epoch让模型预热。然后解冻所有参数用较小的学习率进行端到端的联合训练。这有助于稳定多任务学习的初期阶段。归一化层的选择再次强调在涉及多任务、部分预训练的网络中对于新添加的、从头训练的部分如分割解码器、CTAB坚决使用Instance Norm或Group Norm避免使用Batch Norm。这是保证训练收敛性和消除训练-评估差距的生命线。5. 局限性与未来展望尽管CTAB取得了积极的效果但仍有改进空间分辨率瓶颈BEV上采样模块虽然将分割输出提升到了200x200但骨干网络提取的BEV特征F_bev本身仍然是128x1280.8米分辨率。上采样可以细化但无法创造底层特征中不存在的高频信息。未来可以考虑更高分辨率的BEV特征提取或采用特征金字塔网络FPN来融合多尺度特征。骨干网络限制我们使用的是ResNet-50而一些顶尖的分割方法如BEVCar使用了更大的Vision TransformerViT-B。骨干网络的能力上限直接影响最终性能。将ResNet-50替换为DINOv2等自监督预训练的ViT有望显著提升对细长结构的感知能力。更精细的门控机制当前的门控是每个任务分支一个标量。一个自然的扩展是将其变为空间感知的门控图U(x, y)。例如在物体中心附近Seg-Det的门控可以增强让检测器更多关注分割提供的局部语义在空旷区域则可以抑制避免引入噪声。这可以实现更动态、更精准的跨任务调制。任务自适应的雷达融合目前雷达和相机特征在早期就融合成了一个共享的F_bev。但检测和分割任务对雷达信息的敏感度和需求点可能不同检测更关心动态物体的速度分割更关心静态地面的轮廓。未来可以探索一种“任务感知”的雷达融合路由机制让雷达特征流经不同的权重后再分别服务于检测和分割分支。CTAB作为一个轻量、通用的跨任务注意力桥其思想并不局限于雷达-相机融合也不局限于检测与分割。任何在共享特征空间下、任务间存在几何或语义相关性的多任务学习场景如3D检测与跟踪、语义分割与深度估计等都可以尝试引入类似的显式交互机制以极小的计算代价挖掘任务间的协同潜力迈向更高效、更智能的自动驾驶感知系统。