1. 从“指哪打哪”到“指哪打哪群”理解广义引用分割GRES的来龙去脉如果你用过一些智能抠图或者图片编辑工具可能会对“点击物体进行分割”的功能很熟悉。但你想过没有如果我想用一句话比如“除了穿白衣服的小孩其他所有人”让AI自动把图片里除了那个白衣小孩外的所有人都圈出来这该怎么实现这就是我今天想和大家深入聊聊的一个前沿方向——广义引用分割。传统的“引用分割”任务可以理解为让AI“看图听话”你描述一个物体它就在图里给你找出来并精确地抠出来。这个技术听起来很酷在智能剪辑、交互设计乃至机器人抓取等领域都有巨大的想象空间。然而我研究和使用下来发现现有的技术有个挺大的“死穴”它通常只能处理一句话描述一个物体的情况。你说“那个红衣服的小孩”它能找到但你说“所有穿红衣服的小孩”或者“那个穿蓝衣服的小孩”假设图里没有它就懵了要么乱指一气要么直接报错。这极大地限制了它的实际应用毕竟我们人类的语言是丰富且灵活的。最近新加坡南洋理工大学NTU的研究团队正式提出了一个名为广义引用分割的新任务并配套发布了首个大规模数据集gRefCOCO和一个新的基准模型ReLA。这相当于给这个领域开了一扇新的大门。简单说GRES让AI不仅能处理“单点指令”还能处理“多点指令”甚至“无效指令”。今天我就结合论文和我的理解带大家拆解一下这个新任务到底新在哪、难在哪以及它背后的数据集和模型是如何设计的。无论你是计算机视觉的从业者还是对多模态AI应用感兴趣的开发者相信这篇深度解析都能给你带来启发。2. 传统引用分割的“阿喀琉斯之踵”为何需要GRES在深入GRES之前我们必须先搞清楚经典的引用分割到底卡在了哪里。引用分割任务可以形式化地定义为给定一张图像I和一个自然语言表达式E目标是输出一个二值化的分割掩码M这个掩码精确地对应表达式E在图像I中所指代的那个物体区域。听起来很完美对吧但魔鬼藏在细节里。当前绝大多数研究包括那些在顶级会议上刷出高分的模型都建立在两个近乎“理想化”的假设之上这成了它们在实际落地时的致命弱点。2.1 假设一表达式必须有且仅有一个目标这是最核心的局限。现有主流数据集如RefCOCO、RefCOCO、ReferItGame等它们的标注范式决定了几乎每一个表达式都唯一对应图像中的一个物体。模型在整个训练和测试过程中都被灌输着“输入一句话就一定能找到一个对应物体”的观念。带来的问题无法处理多目标查询用户如果想同时选中“左边的那只狗和右边的猫”他必须分两次操作先说“左边的狗”得到掩码A再说“右边的猫”得到掩码B最后手动合并。这既不智能也不符合人类“一句话把事情说完”的交互直觉。在需要批量操作的场景下效率极低。对“无目标”情况束手无策当用户描述一个图中根本不存在的物体时例如在图1的幼儿园场景中说“那个穿蓝衣服的小孩”现有模型的行为是未定义的。它可能会“硬着头皮”分割出一个最像的物体比如穿其他颜色衣服的小孩输出一个完全错误的答案而系统自身却无法判断这个查询是无效的。在严谨的应用中这种“沉默的错误”比直接报错更危险。2.2 假设二语言表达的单一性与简单性为了降低标注和模型理解的难度传统数据集的表达式往往比较简短、直接侧重于物体的外观属性颜色、形状和绝对空间位置左边、上面。对于涉及多个物体之间复杂关系如“A和B之间的那个”、“除了C以外的所有”的表达数据量极少。带来的问题模型缺乏对复杂逻辑关系并列、排除、选择和相对空间关系之间、周围的理解能力。它更像一个高级的“属性过滤器”而不是一个真正的“场景理解者”。我的实操心得我曾尝试将一些开源的RES模型用于一个内部的内容审核工具希望它能根据描述自动框选违规元素。很快就遇到了麻烦。审核员习惯写“图片中所有裸露的皮肤区域”或“除脸部外所有的文字区域”。面对这种指令模型要么只分割出一小块要么分割得乱七八糟。最后我们不得不退回到让审核员手动框选或者拆分成无数个单目标指令体验非常割裂。这让我深切感受到任务定义本身的局限性是技术从“实验室刷榜”走向“实际生产力”的最大障碍。因此NTU团队提出GRES本质上是对任务定义的一次“范式扩展”使其更贴近真实、灵活的人机交互需求。GRES任务接受相同的输入图像I和表达式E但输出更具包容性它允许E指代零个、一个或多个目标物体。对于多目标输出是多个物体掩码的集合对于无目标则输出一个全零的掩码或一个特定的“无目标”标志。这一个小小的改变却带来了算法、评估乃至数据层面的全面挑战。3. 新基石gRefCOCO数据集构建的挑战与智慧一个好的任务需要高质量的数据来驱动。既然现有数据集无法满足GRES的需求构建新数据集就成了首要任务。NTU团队基于流行的RefCOCO系列数据集构建了gRefCOCO。这个数据集的聪明之处在于它并非从零开始而是在已有的大量高质量单目标标注基础上进行“升级改造”同时引入了多目标和无目标表达式。3.1 数据构成与规模gRefCOCO包含了来自RefCOCO、RefCOCO和RefCOCOg的19,994张图像和60,287个物体。它总共包含了278,232个表达式其中单目标表达式166,008个继承并丰富了原有数据。多目标表达式80,022个新增。无目标表达式32,202个新增。这个数据量级确保了训练的可行性和评估的可靠性。下表清晰地展示了gRefCOCO与之前数据集的本质区别数据集图像数量表达式数量单目标多目标无目标主要特点ReferIt19,894130,525是极少否早期数据集表达相对简单RefCOCO19,994142,210是极少否划分了TestA人/TestB物RefCOCO19,992141,564是极少否禁止使用绝对位置词RefCOCOg25,799104,560是极少否表达式更长更语法化gRefCOCO19,994278,232是是是首个支持多目标和无目标的通用数据集3.2 多目标表达式构建的四大难点新增8万多个多目标表达式绝非简单地将两个单目标句子用“和”连接。它需要系统性地构建具有挑战性的语言结构论文中重点提到了四类难点计数表达式例如“the two cupson the table”。这要求模型不仅要理解“cup”这个概念还要具备数数的能力知道“two”指的是数量2并且能区分“the second cup”序数特指某一个和“two cups”基数指全部两个的天壤之别。在标注时需要确保图像中目标物体的数量严格匹配表达式的描述。复合句与逻辑运算符这是核心难点引入了基础的集合逻辑。并集A and B“the man and the dog”。这是最直接的多目标。差集A except B“all people except the one wearing glasses”。这要求模型先理解“all people”这个集合再从中排除掉满足“wearing glasses”条件的子集。逻辑上多了一层。交集与选择A with B or C“the person with a dog or a bag”。这涉及到逻辑“或”目标可能是“带狗的人”或“带包的人”或两者都带取决于图像内容。这需要模型对关系进行推理。属性的共享与分化在多目标表达中属性可能被共享也可能各自不同。例如“the red apples”红色属性被所有目标共享而“the big dog and the small cat”大小属性分别属于不同目标。模型需要将属性正确地绑定到对应的实体上避免“张冠李戴”。复杂空间与关系描述表达式可能通过复杂的空间关系指向多个目标例如“people sitting between the two sofas”坐在两张沙发之间的人们。这要求模型理解“between”这种关系并能识别出“two sofas”这两个参照物最后找到满足空间关系的主体“people”。这需要对整个场景的几何和语义有深度理解。我的理解与延伸这四大难点实际上是为模型定义了四个必须攻克的能力阶梯物体识别-数量感知-逻辑运算-关系推理。gRefCOCO通过精心设计的标注将这四种挑战均匀地“搅拌”在了数据中迫使模型去学习这些更高级的语义组合能力而不是仅仅记忆物体-词汇的浅层关联。3.3 无目标表达式构建的巧思构建无目标表达式更难因为它不是随便写一个不相干的句子如“一只恐龙”。那样太简单模型很容易通过检测图像中是否有“恐龙”这个概念来直接判断学不到真正需要区分的细粒度语义。论文中采用了两个更巧妙的构建原则成分存在组合不存在表达式中的核心名词和属性在图像中分别存在但它们的组合体不存在。例如图1中有“kid”也有“blue”的物体但没有“kid in blue”。这要求模型进行精确的属性绑定判断是最具迷惑性的一类。跨图像迷惑性采样当原则1难以构造时从同一数据划分split的其他图像中选取一个真实的表达式。例如图1是一张幼儿园图片但从一张办公室图片的标注中借用表达式“the person at the computer”。虽然办公室常见的“人”和“电脑”在幼儿园图中也可能分别存在但“在电脑前的人”这个具体组合不存在。这引入了更广泛的语义冲突。这种构建方式使得“无目标”判断成为一个需要深度推理的任务而不是简单的关键词过滤极大地提升了数据的质量和挑战性。4. 新方法ReLA模型如何建模复杂关系有了新任务和新数据就需要新的模型来应对新的挑战。传统的RES模型如VLT、LAVT等主要采用一种“融合-解码”的范式先将图像特征和语言特征进行早期或中期融合然后直接解码成分割图。这种方式对于单目标、描述直接的情况很有效但在面对GRES中复杂的多目标关系和精细的属性绑定时就显得力不从心。NTU团队提出的ReLA模型其核心思想是显式地、结构化地建模图像内部区域之间、以及区域与语言词元之间的动态关系。这个名字也揭示了其重点RelationshipLAyer。4.1 ReLA的整体架构洞察ReLA通常构建在一个视觉-语言编码器如CLIP或Swin TransformerBERT之上。它不满足于简单的特征拼接或注意力相加而是设计了两个专门的交叉注意力模块像两个精密的处理器分别处理不同层面的关联信息。想象一下你要在一个人群熙攘的派对照片中找到“所有正在交谈且没拿酒杯的人”。一个简单的过滤器颜色、姿势可能失效。你需要1先扫视全场锁定所有“人”2观察每两个人之间的互动判断是否在“交谈”3同时检查每个人手部判断是否“拿酒杯”4最后综合1、2、3步的结果找出满足条件的人。ReLA的工作流程就类似这种层次化的、关系驱动的推理。4.2 核心模块一区域-图像交叉注意力区域-图像交叉注意力模块的核心目标是让每个“候选区域”的特征能够从全局图像中汲取最相关的上下文信息。具体如何工作生成候选区域首先通过一个区域提议网络或简单的网格划分从图像中提取N个候选区域的特征。每个区域特征可以看作是对图像中某个局部片段的编码。区域作为查询全局图像作为键和值RIA模块将每个区域特征作为“查询”而将整个图像的全局特征图或所有图像块特征作为“键”和“值”。动态信息聚合通过注意力机制计算每个区域查询与所有图像位置键的相似度。相似度高的位置其“值”信息就会被更多地聚合到该区域特征中。例如一个“狗头”区域会高度关注图像中狗的身体、尾巴等部分从而增强其“狗”的整体表征同时它也可能关注到“牵着狗绳的人手”从而捕获“被牵着”的关系信息。为什么需要它物体不是孤立的。一个“骑自行车的人”区域如果只看到自行车座可能无法确认但如果它能从图像其他位置聚合到自行车轮子、车把的特征判断就会准确得多。RIA让每个区域的特征变得“见多识广”具备了全局视野。4.3 核心模块二区域-语言交叉注意力这是ReLA的灵魂所在。区域-语言交叉注意力模块的目标是建立所有候选区域之间、以及所有区域与所有语言词元之间的全连接关系网络从而解析复杂的语言指令。具体如何工作输入与输出该模块的输入是经过RIA增强后的N个区域特征以及语言表达式的M个词元特征。输出是更新后的N个区域特征此时每个区域特征都融合了其他区域的信息和所有语言词元的信息。双重关系建模区域间关系模块内部允许区域与区域之间互相计算注意力。这是理解“多目标”关系的关键。当处理“A and B”时模型需要知道A和B是并列关系当处理“A except B”时模型需要抑制B区域对最终“A”集合选择的贡献。区域间的注意力权重可以隐式地学习到这种协同或排斥的关系。区域-词元关系同时每个区域也会与所有语言词元计算注意力。这对于解决属性绑定问题至关重要。例如在“the big dog and the small cat”中“big”这个词元应该与“dog”区域有强关联而与“cat”区域弱关联。通过交叉注意力模型可以学习将形容词精确地“贴”到正确的名词区域上。迭代优化这样的RLA模块通常是多层的。信息在一层一层中传递和精炼区域特征在区域关系和语言约束的共同作用下不断被调整最终那些与语言描述高度匹配的区域特征会被强化而不匹配的则被弱化。4.4 从特征到分割掩码经过多个ReLA层的迭代处理后我们得到了一组“精炼过”的区域特征。对于每个区域模型会预测两个东西一个匹配分数表示该区域与整个语言表达式相关的程度。一个分割掩码一个低分辨率的二值图预测该区域本身是否为目标物体。对于单目标选择匹配分数最高的区域将其掩码上采样后输出。 对于多目标可以选择匹配分数超过一定阈值的所有区域将它们的掩码合并后输出。 对于无目标当所有区域的匹配分数都低于一个阈值时则输出空掩码。技术细节思考ReLA的这种设计将“分割”任务部分地转化为了“关系推理”和“语义匹配”任务。它不再急于从融合特征中直接解码像素而是先让图像内部元素和语言元素充分“对话”和“辩论”达成共识后再做出分割决策。这更接近人类的推理过程也是其能更好处理GRES复杂情况的原因。5. 如何评价GRES新指标的设计哲学任务变了评估标准也必须与时俱进。传统的RES只用交并比来衡量预测掩码和真实掩码之间的像素级重叠精度。这对于单目标是合适的但对于多目标和无目标就完全失效了。NTU论文提出了三个新指标构成了一个更全面的评估体系5.1 广义交并比gIoU是核心的分割精度指标。它的计算方式是对于每个样本将模型预测的所有目标物体的掩码合并成一个整体预测掩码同样将真实的所有目标物体掩码合并成一个整体真实掩码然后计算这两个整体掩码之间的IoU。为什么用整体IoU对于多目标情况这避免了“如何将预测实例与真实实例一一配对”的难题即实例匹配问题。它只关心“你圈出来的所有像素”和“我应该圈出来的所有像素”之间有多像。这更符合任务目标用户只关心最终得到的选区是否准确而不关心模型内部是如何划分实例的。计算简单意义直接。5.2 无目标准确率N-acc专门用于评估模型判断“无目标表达式”的能力。它是一个二分类准确率对于测试集中所有无目标表达式样本模型是否能正确预测“没有目标”输出空掩码或极低置信度。这个指标至关重要因为它衡量了模型的“自知之明”。在实际应用中能够可靠地说“我不知道”或“你要找的东西不存在”与能够正确找到东西同等重要。一个总是硬着头皮给出错误答案的模型是危险的。5.3 总体准确率T-acc是一个综合性的分类准确率。它将GRES任务视为一个对每个样本的分类任务模型需要判断该样本属于“单目标”、“多目标”还是“无目标”并且对于前两类其分割结果gIoU必须超过一个阈值如0.5才被认为在该类别上正确。T-acc 正确分类且分割合格的样本数 / 总样本数这个指标最严格也最贴近实际应用需求。它要求模型不仅要把东西找对还要在第一步就“理解”这个指令的类型。它防止了模型用“一招鲜”的方式处理所有问题例如把所有输入都当作单目标来处理可能在gIoU上得分不低但在T-acc上会惨败。评估策略的启示这三个指标从不同维度“围剿”模型能力。gIoU看“做得细不细”N-acc看“能不能刹车”T-acc看“整体灵不灵”。在对比实验时必须综合看待这三个指标。一个只在gIoU上高但N-acc很低的模型就像一个总是超速的司机技术再好也不可靠。6. 实验结果与未来挑战在论文的实验中ReLA模型在gRefCOCO数据集上相较于一些Adapted Baseline将传统RES模型简单修改以适应多目标输出在gIoU、N-acc和T-acc上均取得了显著提升。这验证了显式关系建模对于GRES任务的有效性。一些可视化的结果也很有趣对于“the two cups on the table”ReLA能准确地分割出两个杯子而基线模型可能只分割出一个或把茶壶也包含进来。对于“all people except the one wearing white”ReLA能成功排除掉白衣人而基线模型往往无法处理“except”逻辑会把所有人都分割出来。对于无目标表达式ReLA能输出空白或极低置信度的响应而基线模型往往会错误地分割出一个最相似的物体。然而GRES作为一个新开辟的方向依然面临巨大挑战极端复杂的长句理解目前的多目标表达式虽然包含了逻辑但相对还是受控的。对于更自由、更冗长、包含嵌套从句的自然语言指令如“请找出图中那个戴着帽子、正在看手机、并且站在穿红色衣服女士左边的男人”模型的理解能力将面临极限考验。视频GRES的扩展当前工作集中在图像领域。但引用分割在视频编辑、机器人交互中需求更迫切。扩展到视频序列需要引入时间维度的一致性建模难度指数级增加。效率问题ReLA这类关系建模模块通常计算开销较大。如何设计更轻量、更高效的关系推理架构以满足实时应用如交互式抠图的需求是一个重要的工程问题。零样本/少样本泛化模型在gRefCOCO上学习了特定的逻辑和关系词汇如and, except, with。当遇到训练集中未出现过的新颖关系描述或物体组合时其泛化能力如何仍需探索。从我个人的角度看GRES的提出是视觉-语言理解走向“深水区”的一个标志性信号。它不再满足于浅层的指代而是开始触及语言中蕴含的逻辑、关系和集合运算。这要求模型拥有更结构化的内部表示和推理能力。虽然前路漫漫但gRefCOCO数据集和ReLA模型已经提供了一个坚实的起点。对于研究者而言这里有丰富的待解问题对于开发者而言这意味着更智能、更人性化的多模态应用即将成为可能。下一步我可能会尝试将GRES的思路与我们现有的内容理解平台结合探索在更开放域下的指代分割能力这其中的工程调优和落地挑战想必又是另一个精彩的故事了。
广义引用分割:从单目标到多目标与无效指令的视觉语言理解新范式
发布时间:2026/5/22 7:14:07
1. 从“指哪打哪”到“指哪打哪群”理解广义引用分割GRES的来龙去脉如果你用过一些智能抠图或者图片编辑工具可能会对“点击物体进行分割”的功能很熟悉。但你想过没有如果我想用一句话比如“除了穿白衣服的小孩其他所有人”让AI自动把图片里除了那个白衣小孩外的所有人都圈出来这该怎么实现这就是我今天想和大家深入聊聊的一个前沿方向——广义引用分割。传统的“引用分割”任务可以理解为让AI“看图听话”你描述一个物体它就在图里给你找出来并精确地抠出来。这个技术听起来很酷在智能剪辑、交互设计乃至机器人抓取等领域都有巨大的想象空间。然而我研究和使用下来发现现有的技术有个挺大的“死穴”它通常只能处理一句话描述一个物体的情况。你说“那个红衣服的小孩”它能找到但你说“所有穿红衣服的小孩”或者“那个穿蓝衣服的小孩”假设图里没有它就懵了要么乱指一气要么直接报错。这极大地限制了它的实际应用毕竟我们人类的语言是丰富且灵活的。最近新加坡南洋理工大学NTU的研究团队正式提出了一个名为广义引用分割的新任务并配套发布了首个大规模数据集gRefCOCO和一个新的基准模型ReLA。这相当于给这个领域开了一扇新的大门。简单说GRES让AI不仅能处理“单点指令”还能处理“多点指令”甚至“无效指令”。今天我就结合论文和我的理解带大家拆解一下这个新任务到底新在哪、难在哪以及它背后的数据集和模型是如何设计的。无论你是计算机视觉的从业者还是对多模态AI应用感兴趣的开发者相信这篇深度解析都能给你带来启发。2. 传统引用分割的“阿喀琉斯之踵”为何需要GRES在深入GRES之前我们必须先搞清楚经典的引用分割到底卡在了哪里。引用分割任务可以形式化地定义为给定一张图像I和一个自然语言表达式E目标是输出一个二值化的分割掩码M这个掩码精确地对应表达式E在图像I中所指代的那个物体区域。听起来很完美对吧但魔鬼藏在细节里。当前绝大多数研究包括那些在顶级会议上刷出高分的模型都建立在两个近乎“理想化”的假设之上这成了它们在实际落地时的致命弱点。2.1 假设一表达式必须有且仅有一个目标这是最核心的局限。现有主流数据集如RefCOCO、RefCOCO、ReferItGame等它们的标注范式决定了几乎每一个表达式都唯一对应图像中的一个物体。模型在整个训练和测试过程中都被灌输着“输入一句话就一定能找到一个对应物体”的观念。带来的问题无法处理多目标查询用户如果想同时选中“左边的那只狗和右边的猫”他必须分两次操作先说“左边的狗”得到掩码A再说“右边的猫”得到掩码B最后手动合并。这既不智能也不符合人类“一句话把事情说完”的交互直觉。在需要批量操作的场景下效率极低。对“无目标”情况束手无策当用户描述一个图中根本不存在的物体时例如在图1的幼儿园场景中说“那个穿蓝衣服的小孩”现有模型的行为是未定义的。它可能会“硬着头皮”分割出一个最像的物体比如穿其他颜色衣服的小孩输出一个完全错误的答案而系统自身却无法判断这个查询是无效的。在严谨的应用中这种“沉默的错误”比直接报错更危险。2.2 假设二语言表达的单一性与简单性为了降低标注和模型理解的难度传统数据集的表达式往往比较简短、直接侧重于物体的外观属性颜色、形状和绝对空间位置左边、上面。对于涉及多个物体之间复杂关系如“A和B之间的那个”、“除了C以外的所有”的表达数据量极少。带来的问题模型缺乏对复杂逻辑关系并列、排除、选择和相对空间关系之间、周围的理解能力。它更像一个高级的“属性过滤器”而不是一个真正的“场景理解者”。我的实操心得我曾尝试将一些开源的RES模型用于一个内部的内容审核工具希望它能根据描述自动框选违规元素。很快就遇到了麻烦。审核员习惯写“图片中所有裸露的皮肤区域”或“除脸部外所有的文字区域”。面对这种指令模型要么只分割出一小块要么分割得乱七八糟。最后我们不得不退回到让审核员手动框选或者拆分成无数个单目标指令体验非常割裂。这让我深切感受到任务定义本身的局限性是技术从“实验室刷榜”走向“实际生产力”的最大障碍。因此NTU团队提出GRES本质上是对任务定义的一次“范式扩展”使其更贴近真实、灵活的人机交互需求。GRES任务接受相同的输入图像I和表达式E但输出更具包容性它允许E指代零个、一个或多个目标物体。对于多目标输出是多个物体掩码的集合对于无目标则输出一个全零的掩码或一个特定的“无目标”标志。这一个小小的改变却带来了算法、评估乃至数据层面的全面挑战。3. 新基石gRefCOCO数据集构建的挑战与智慧一个好的任务需要高质量的数据来驱动。既然现有数据集无法满足GRES的需求构建新数据集就成了首要任务。NTU团队基于流行的RefCOCO系列数据集构建了gRefCOCO。这个数据集的聪明之处在于它并非从零开始而是在已有的大量高质量单目标标注基础上进行“升级改造”同时引入了多目标和无目标表达式。3.1 数据构成与规模gRefCOCO包含了来自RefCOCO、RefCOCO和RefCOCOg的19,994张图像和60,287个物体。它总共包含了278,232个表达式其中单目标表达式166,008个继承并丰富了原有数据。多目标表达式80,022个新增。无目标表达式32,202个新增。这个数据量级确保了训练的可行性和评估的可靠性。下表清晰地展示了gRefCOCO与之前数据集的本质区别数据集图像数量表达式数量单目标多目标无目标主要特点ReferIt19,894130,525是极少否早期数据集表达相对简单RefCOCO19,994142,210是极少否划分了TestA人/TestB物RefCOCO19,992141,564是极少否禁止使用绝对位置词RefCOCOg25,799104,560是极少否表达式更长更语法化gRefCOCO19,994278,232是是是首个支持多目标和无目标的通用数据集3.2 多目标表达式构建的四大难点新增8万多个多目标表达式绝非简单地将两个单目标句子用“和”连接。它需要系统性地构建具有挑战性的语言结构论文中重点提到了四类难点计数表达式例如“the two cupson the table”。这要求模型不仅要理解“cup”这个概念还要具备数数的能力知道“two”指的是数量2并且能区分“the second cup”序数特指某一个和“two cups”基数指全部两个的天壤之别。在标注时需要确保图像中目标物体的数量严格匹配表达式的描述。复合句与逻辑运算符这是核心难点引入了基础的集合逻辑。并集A and B“the man and the dog”。这是最直接的多目标。差集A except B“all people except the one wearing glasses”。这要求模型先理解“all people”这个集合再从中排除掉满足“wearing glasses”条件的子集。逻辑上多了一层。交集与选择A with B or C“the person with a dog or a bag”。这涉及到逻辑“或”目标可能是“带狗的人”或“带包的人”或两者都带取决于图像内容。这需要模型对关系进行推理。属性的共享与分化在多目标表达中属性可能被共享也可能各自不同。例如“the red apples”红色属性被所有目标共享而“the big dog and the small cat”大小属性分别属于不同目标。模型需要将属性正确地绑定到对应的实体上避免“张冠李戴”。复杂空间与关系描述表达式可能通过复杂的空间关系指向多个目标例如“people sitting between the two sofas”坐在两张沙发之间的人们。这要求模型理解“between”这种关系并能识别出“two sofas”这两个参照物最后找到满足空间关系的主体“people”。这需要对整个场景的几何和语义有深度理解。我的理解与延伸这四大难点实际上是为模型定义了四个必须攻克的能力阶梯物体识别-数量感知-逻辑运算-关系推理。gRefCOCO通过精心设计的标注将这四种挑战均匀地“搅拌”在了数据中迫使模型去学习这些更高级的语义组合能力而不是仅仅记忆物体-词汇的浅层关联。3.3 无目标表达式构建的巧思构建无目标表达式更难因为它不是随便写一个不相干的句子如“一只恐龙”。那样太简单模型很容易通过检测图像中是否有“恐龙”这个概念来直接判断学不到真正需要区分的细粒度语义。论文中采用了两个更巧妙的构建原则成分存在组合不存在表达式中的核心名词和属性在图像中分别存在但它们的组合体不存在。例如图1中有“kid”也有“blue”的物体但没有“kid in blue”。这要求模型进行精确的属性绑定判断是最具迷惑性的一类。跨图像迷惑性采样当原则1难以构造时从同一数据划分split的其他图像中选取一个真实的表达式。例如图1是一张幼儿园图片但从一张办公室图片的标注中借用表达式“the person at the computer”。虽然办公室常见的“人”和“电脑”在幼儿园图中也可能分别存在但“在电脑前的人”这个具体组合不存在。这引入了更广泛的语义冲突。这种构建方式使得“无目标”判断成为一个需要深度推理的任务而不是简单的关键词过滤极大地提升了数据的质量和挑战性。4. 新方法ReLA模型如何建模复杂关系有了新任务和新数据就需要新的模型来应对新的挑战。传统的RES模型如VLT、LAVT等主要采用一种“融合-解码”的范式先将图像特征和语言特征进行早期或中期融合然后直接解码成分割图。这种方式对于单目标、描述直接的情况很有效但在面对GRES中复杂的多目标关系和精细的属性绑定时就显得力不从心。NTU团队提出的ReLA模型其核心思想是显式地、结构化地建模图像内部区域之间、以及区域与语言词元之间的动态关系。这个名字也揭示了其重点RelationshipLAyer。4.1 ReLA的整体架构洞察ReLA通常构建在一个视觉-语言编码器如CLIP或Swin TransformerBERT之上。它不满足于简单的特征拼接或注意力相加而是设计了两个专门的交叉注意力模块像两个精密的处理器分别处理不同层面的关联信息。想象一下你要在一个人群熙攘的派对照片中找到“所有正在交谈且没拿酒杯的人”。一个简单的过滤器颜色、姿势可能失效。你需要1先扫视全场锁定所有“人”2观察每两个人之间的互动判断是否在“交谈”3同时检查每个人手部判断是否“拿酒杯”4最后综合1、2、3步的结果找出满足条件的人。ReLA的工作流程就类似这种层次化的、关系驱动的推理。4.2 核心模块一区域-图像交叉注意力区域-图像交叉注意力模块的核心目标是让每个“候选区域”的特征能够从全局图像中汲取最相关的上下文信息。具体如何工作生成候选区域首先通过一个区域提议网络或简单的网格划分从图像中提取N个候选区域的特征。每个区域特征可以看作是对图像中某个局部片段的编码。区域作为查询全局图像作为键和值RIA模块将每个区域特征作为“查询”而将整个图像的全局特征图或所有图像块特征作为“键”和“值”。动态信息聚合通过注意力机制计算每个区域查询与所有图像位置键的相似度。相似度高的位置其“值”信息就会被更多地聚合到该区域特征中。例如一个“狗头”区域会高度关注图像中狗的身体、尾巴等部分从而增强其“狗”的整体表征同时它也可能关注到“牵着狗绳的人手”从而捕获“被牵着”的关系信息。为什么需要它物体不是孤立的。一个“骑自行车的人”区域如果只看到自行车座可能无法确认但如果它能从图像其他位置聚合到自行车轮子、车把的特征判断就会准确得多。RIA让每个区域的特征变得“见多识广”具备了全局视野。4.3 核心模块二区域-语言交叉注意力这是ReLA的灵魂所在。区域-语言交叉注意力模块的目标是建立所有候选区域之间、以及所有区域与所有语言词元之间的全连接关系网络从而解析复杂的语言指令。具体如何工作输入与输出该模块的输入是经过RIA增强后的N个区域特征以及语言表达式的M个词元特征。输出是更新后的N个区域特征此时每个区域特征都融合了其他区域的信息和所有语言词元的信息。双重关系建模区域间关系模块内部允许区域与区域之间互相计算注意力。这是理解“多目标”关系的关键。当处理“A and B”时模型需要知道A和B是并列关系当处理“A except B”时模型需要抑制B区域对最终“A”集合选择的贡献。区域间的注意力权重可以隐式地学习到这种协同或排斥的关系。区域-词元关系同时每个区域也会与所有语言词元计算注意力。这对于解决属性绑定问题至关重要。例如在“the big dog and the small cat”中“big”这个词元应该与“dog”区域有强关联而与“cat”区域弱关联。通过交叉注意力模型可以学习将形容词精确地“贴”到正确的名词区域上。迭代优化这样的RLA模块通常是多层的。信息在一层一层中传递和精炼区域特征在区域关系和语言约束的共同作用下不断被调整最终那些与语言描述高度匹配的区域特征会被强化而不匹配的则被弱化。4.4 从特征到分割掩码经过多个ReLA层的迭代处理后我们得到了一组“精炼过”的区域特征。对于每个区域模型会预测两个东西一个匹配分数表示该区域与整个语言表达式相关的程度。一个分割掩码一个低分辨率的二值图预测该区域本身是否为目标物体。对于单目标选择匹配分数最高的区域将其掩码上采样后输出。 对于多目标可以选择匹配分数超过一定阈值的所有区域将它们的掩码合并后输出。 对于无目标当所有区域的匹配分数都低于一个阈值时则输出空掩码。技术细节思考ReLA的这种设计将“分割”任务部分地转化为了“关系推理”和“语义匹配”任务。它不再急于从融合特征中直接解码像素而是先让图像内部元素和语言元素充分“对话”和“辩论”达成共识后再做出分割决策。这更接近人类的推理过程也是其能更好处理GRES复杂情况的原因。5. 如何评价GRES新指标的设计哲学任务变了评估标准也必须与时俱进。传统的RES只用交并比来衡量预测掩码和真实掩码之间的像素级重叠精度。这对于单目标是合适的但对于多目标和无目标就完全失效了。NTU论文提出了三个新指标构成了一个更全面的评估体系5.1 广义交并比gIoU是核心的分割精度指标。它的计算方式是对于每个样本将模型预测的所有目标物体的掩码合并成一个整体预测掩码同样将真实的所有目标物体掩码合并成一个整体真实掩码然后计算这两个整体掩码之间的IoU。为什么用整体IoU对于多目标情况这避免了“如何将预测实例与真实实例一一配对”的难题即实例匹配问题。它只关心“你圈出来的所有像素”和“我应该圈出来的所有像素”之间有多像。这更符合任务目标用户只关心最终得到的选区是否准确而不关心模型内部是如何划分实例的。计算简单意义直接。5.2 无目标准确率N-acc专门用于评估模型判断“无目标表达式”的能力。它是一个二分类准确率对于测试集中所有无目标表达式样本模型是否能正确预测“没有目标”输出空掩码或极低置信度。这个指标至关重要因为它衡量了模型的“自知之明”。在实际应用中能够可靠地说“我不知道”或“你要找的东西不存在”与能够正确找到东西同等重要。一个总是硬着头皮给出错误答案的模型是危险的。5.3 总体准确率T-acc是一个综合性的分类准确率。它将GRES任务视为一个对每个样本的分类任务模型需要判断该样本属于“单目标”、“多目标”还是“无目标”并且对于前两类其分割结果gIoU必须超过一个阈值如0.5才被认为在该类别上正确。T-acc 正确分类且分割合格的样本数 / 总样本数这个指标最严格也最贴近实际应用需求。它要求模型不仅要把东西找对还要在第一步就“理解”这个指令的类型。它防止了模型用“一招鲜”的方式处理所有问题例如把所有输入都当作单目标来处理可能在gIoU上得分不低但在T-acc上会惨败。评估策略的启示这三个指标从不同维度“围剿”模型能力。gIoU看“做得细不细”N-acc看“能不能刹车”T-acc看“整体灵不灵”。在对比实验时必须综合看待这三个指标。一个只在gIoU上高但N-acc很低的模型就像一个总是超速的司机技术再好也不可靠。6. 实验结果与未来挑战在论文的实验中ReLA模型在gRefCOCO数据集上相较于一些Adapted Baseline将传统RES模型简单修改以适应多目标输出在gIoU、N-acc和T-acc上均取得了显著提升。这验证了显式关系建模对于GRES任务的有效性。一些可视化的结果也很有趣对于“the two cups on the table”ReLA能准确地分割出两个杯子而基线模型可能只分割出一个或把茶壶也包含进来。对于“all people except the one wearing white”ReLA能成功排除掉白衣人而基线模型往往无法处理“except”逻辑会把所有人都分割出来。对于无目标表达式ReLA能输出空白或极低置信度的响应而基线模型往往会错误地分割出一个最相似的物体。然而GRES作为一个新开辟的方向依然面临巨大挑战极端复杂的长句理解目前的多目标表达式虽然包含了逻辑但相对还是受控的。对于更自由、更冗长、包含嵌套从句的自然语言指令如“请找出图中那个戴着帽子、正在看手机、并且站在穿红色衣服女士左边的男人”模型的理解能力将面临极限考验。视频GRES的扩展当前工作集中在图像领域。但引用分割在视频编辑、机器人交互中需求更迫切。扩展到视频序列需要引入时间维度的一致性建模难度指数级增加。效率问题ReLA这类关系建模模块通常计算开销较大。如何设计更轻量、更高效的关系推理架构以满足实时应用如交互式抠图的需求是一个重要的工程问题。零样本/少样本泛化模型在gRefCOCO上学习了特定的逻辑和关系词汇如and, except, with。当遇到训练集中未出现过的新颖关系描述或物体组合时其泛化能力如何仍需探索。从我个人的角度看GRES的提出是视觉-语言理解走向“深水区”的一个标志性信号。它不再满足于浅层的指代而是开始触及语言中蕴含的逻辑、关系和集合运算。这要求模型拥有更结构化的内部表示和推理能力。虽然前路漫漫但gRefCOCO数据集和ReLA模型已经提供了一个坚实的起点。对于研究者而言这里有丰富的待解问题对于开发者而言这意味着更智能、更人性化的多模态应用即将成为可能。下一步我可能会尝试将GRES的思路与我们现有的内容理解平台结合探索在更开放域下的指代分割能力这其中的工程调优和落地挑战想必又是另一个精彩的故事了。