这项由南京开大学VCIP计算机科学实验室与阿里巴巴通义实验室联合开展的研究以预印本形式于2026年5月发表在arXiv平台论文编号为arXiv:2605.18018v1。研究提出了名为SWIMSee What I Mean明白我的意思的全新训练策略致力于解决多模态大语言模型在理解用户文字描述时找不准目标物体的根本性问题。你有没有遇到过这样的体验你对着一个智能助手说帮我描述一下街道上那个穿红衣服的人结果它给你描述的却是整条街道或者描述了旁边那辆最显眼的汽车这种答非所问的现象在当下最先进的视觉语言AI系统中普遍存在而且令人沮丧的是这并不是AI没有看到那个人而是它无法把你说的红衣服的人这几个字和视频画面里那个具体的人物准确地对应起来。研究团队把这个问题比作一场沟通错位——AI拥有眼睛也拥有耳朵但眼睛和耳朵之间的翻译系统出了问题。SWIM项目的核心目标就是修复这套翻译系统让AI真正做到明白你说的是哪个。一、为什么AI总是找不准你说的那个物体要理解这个问题可以用一个日常场景来类比。假设你站在一个热闹的菜市场里让一个朋友帮你找那个卖西红柿的摊位。如果你的朋友经验丰富他会把你说的西红柿这个词和视野里某个具体摊位的红色圆形物体对应起来精准锁定目标。但如果这个朋友对市场不熟悉他可能会漫无目的地扫视整个市场最终指向了那个最显眼的大摊位而不是你说的那个。现有的多模态大语言模型可以理解为同时能看图、看视频又能理解文字的AI就像那个不熟悉市场的朋友。为了弄清楚问题出在哪里研究团队做了一个非常直观的实验他们把AI模型在处理文字时的注意力分布可视化出来——也就是说当AI读到某个词的时候它的目光落在图像的哪些区域。实验结果令人意外却又在情理之中。当AI读到棕色、胡须这样描述外观特征的词时它的注意力非常集中准确落在了图像中那个真正棕色的区域、那张真正有胡须的脸上。但当AI读到男人、人这样的名词时注意力却分散得到处都是整张图像上都有一点点激活就像把一滴墨水滴进了一大盆水里哪里都有颜色却哪里都不清晰。这个发现揭示了一个系统性的规律描述外观特征的词颜色、纹理、形状能够精准定位而代表物体本身的名词却总是漫无方向。研究团队分析了其中的原因在AI用来训练的海量图文数据中红色这个词往往只出现在图像里真正红色的区域附近因此AI学到了红色和特定视觉区域的紧密联系。但男人这个词在各种不同的场景下都会出现——室内、室外、近处、远处、正脸、背影——这种多样性导致AI无法把这个词和某个具体的视觉区域牢牢绑定在一起。正因如此当用户用纯文字描述某个物体时AI往往无法准确理解你说的到底是画面里的哪一个。而为了解决这个问题现有的一些方法走了一条绕路让用户额外提供视觉标记——比如在图像上画一个框、打一个点、或者涂一个遮罩——来明确告诉AI就是这个。这种方式虽然有效却背离了人类最自然的交流方式我们说话的时候不会随手拿着画笔在空气中圈出目标物体我们依靠语言本身来指定目标。二、现有解决方案的局限不得不拿着指示棒说话目前学术界和工业界已经有了一批专门针对精细化物体理解的模型它们确实能更好地理解用户指定的具体物体但代价是需要额外的视觉输入。以视频领域为例VideoRefer这类模型需要用户提供对应帧的精确遮罩就像在物体轮廓上描了一圈Ferret需要用户框出物体的位置还有一些模型需要用户点击物体所在的坐标点。这些方法确实能让AI看准目标但使用起来极为不便——普通用户在日常对话中不可能随时准备好这些视觉标注工具。更重要的是这类方法在架构设计上通常需要额外的模块一个专门处理遮罩的编码器、一个额外的视觉区域提取网络……这不仅增加了系统的复杂度也意味着在使用时必须额外准备这些道具。研究团队认为真正理想的系统应该像人类一样只用语言就能精准指定目标不需要任何额外工具。实现这个目标的关键不是给模型增加更多模块而是让模型内部的语言-视觉对应关系变得更加精准。三、构建教材NL-Refer数据集的诞生任何学习都需要好的教材训练AI也不例外。要让AI学会把名词和具体物体对应起来首先需要一批标准答案——每张图、每段视频里文字中提到的物体都要有对应的精确视觉标注。研究团队的出发点是VideoRefer数据集这是一个已有700K个视频样本的视频理解数据集其中每个样本都包含视频帧、文字描述以及物体的像素级遮罩标注。然而问题在于原始数据集中的文字描述用的是一个占位符号来指代目标物体比如请描述视频中的特征。这个占位符对人来说一看就懂结合视觉标记但对于希望从纯文字中学习对应关系的AI来说这等于告诉它这里有个目标物体却没有给出任何语义信息——AI无从知晓这个物体叫什么、有什么特征。为了解决这个问题研究团队设计了一个GPT-4o驱动的数据处理流程。具体而言他们让GPT-4o阅读每个样本中配套的详细描述文字比如一个穿白色T恤、留着胡须的年轻男性正在走路然后让它把文字里的占位符替换成一个简洁、准确的自然语言指代表达式同时在这个表达式里找出最核心的名词比如男人用特殊标记把它包围起来。经过这样处理原本的请描述视频中的特征就变成了请描述视频中那个**留着胡须的年轻男人**在街上行走的特征其中男人这个词被标记出来并且与原来的像素级遮罩直接挂钩。这套经过精心处理的数据集被命名为NL-Refer包含12.5万个视频样本每个样本都建立了从自然语言名词到视觉区域的精确映射。这相当于为AI准备了一套带有精确答案的练习题每道题告诉AI当你读到这个词时你的目光应该落在图像的这个区域。四、SWIM训练策略用考试压力纠正注意力习惯有了高质量的教材接下来是设计训练方法。SWIM的核心思路其实并不复杂在AI训练过程中每当AI读到一个被标记的关键名词时就检查它的注意力是否落在了正确的视觉区域如果没有就给它一个惩罚信号推着它把注意力调整到正确位置上去。具体来说当AI处理一段输入时它的内部有多层注意力机制每一层都在决定当我处理某个词时我应该关注视频画面的哪些部分。研究团队从AI的中间多层同时提取这种注意力分布图然后把这些来自不同层的注意力图取平均得到一张综合的注意力热力图代表AI整体上在关注画面的哪些区域。接下来这张热力图被拿来和预先标注好的物体遮罩即目标物体的真实轮廓进行对比热力图中的高亮区域是否和物体遮罩重合使用的衡量标准是二值交叉熵损失函数——可以理解为一种考卷评分机制它对图像上每个像素点独立打分如果某个像素属于目标物体对应位置的注意力越高越好如果某个像素不属于目标物体对应位置的注意力越低越好。这个评分机制会生成一个罚分罚分越高说明注意力和真实区域偏差越大训练过程会根据这个罚分不断调整AI的参数直到注意力越来越集中在正确区域上。这里有一个非常关键的设计特点这套遮罩监督只在训练阶段使用。当训练完成、模型正式投入使用时用户不需要提供任何遮罩或其他视觉标注只需用普通文字描述目标物体模型就能自动把注意力对准正确区域。这就好比你通过大量练习学会了看到描述就能想象对应画面的能力在实际使用时不再需要图片辅助单凭描述就能在脑海中精准定位目标。关于具体从哪些层提取注意力图研究团队也做了系统性的探索。他们发现从单一层提取效果最差使用六层效果最好再增加层数收益递减。更重要的发现是这六层最好均匀分布在整个网络的浅层到深层而不是集中在某个特定深度段——这说明精准的物体理解需要同时利用低层的纹理特征和高层的语义理解两者缺一不可。在注意力图的合并方式上研究团队对比了加法、最大值池化、乘法、平均值四种方式最终发现直接取平均效果最好。原因在于乘法会导致某个层注意力稍低的区域被整体压低遗漏了部分有效信息而平均值能平滑各层之间的噪声同时保留最显著的激活峰值。在损失函数的选择上研究团队对比了四种方案mIoU损失、Focal损失、Dice损失和二值交叉熵BCE损失。最终BCE损失效果最优原因在于注意力图天然是稀疏的大部分区域注意力接近零而BCE对每个像素独立计算既惩罚了目标区域内的低注意力也惩罚了非目标区域的高注意力与注意力图的稀疏特性非常契合。五、实验结果不只是比别人强一点点研究团队在多个视频理解基准上对SWIM进行了系统测试结果相当令人信服。在VideoRefer-Bench上这个专门评测视频精细化物体理解能力的基准分为两个子任务。第一个子任务VideoRefer-Bench-Q让模型回答关于特定物体的选择题涵盖基础认知、时序关系、物体间关系、推理和预测五个维度。SWIM取得了78.3%的平均准确率比之前最好的专门模型VideoRefer-7B高出6.4个百分点也超过了GPT-4o71.3%和规模更大的InternVL2-26B65.0%。其中提升最明显的是基础认知比Qwen2.5-VL-7B高5.8%和时序关系高5.3%这两类任务都需要AI首先精准识别出目标物体才能作答正好是SWIM改进最核心的能力。第二个子任务VideoRefer-Bench-D要求模型对指定物体进行详细描述评分维度包括主体对应准确性描述的是不是指定的那个物体、外观描述准确性颜色、形状、纹理是否正确、时间动作描述准确性动作、运动是否描述准确、以及幻觉检测有没有编造不存在的细节。SWIM在这四个维度上分别得到4.92、3.85、3.43、2.96分满分5分综合平均3.78分不仅超过了最好的专门模型DAM-8B3.68分也远超GPT-4o3.25分。其中主体对应性和外观描述的提升最为突出这直接反映了SWIM在把名词和视觉区域对应方面的改进。在通用视频理解基准上SWIM在MVBench上得到62.1分超过VideoRefer-7B的59.6在VideoMME上与VideoRefer-7B持平55.9在ActivityNet-QA上得到55.6分。这些结果说明SWIM在专精于精细化物体理解的同时并没有牺牲通用视频理解能力——一个专注于某项技能的训练方法没有让AI偏科。六、AI的目光究竟落在哪里用数字量化注意力精准度为了更直观地验证SWIM确实改善了注意力分布研究团队设计了两套专门的评估指标。第一套是GamePointP指标它衡量的是在AI注意力最高的前P%像素中有多少比例落在了目标物体的遮罩范围内在P1%时SWIM的得分是0.392而基础的Qwen2.5-VL只有0.329提升了6.3个百分点在P5%时提升5.5个百分点在P10%时提升4.7个百分点。这意味着SWIM的注意力峰值更准确、更集中最受关注的那些像素确实更多地落在了目标物体上。第二套是GamePointK指标衡量的是注意力排名靠前的K个像素点中有多少属于目标物体。在K从1到100的各个值上SWIM0.373~0.375始终高于Qwen2.5-VL0.328~0.331且各个K值下的差距非常稳定。这说明SWIM不只是在最高注意力点上表现更好而是整体的注意力排序都更加准确可靠。此外研究团队还用AP平均精度、AUC曲线下面积、NSS归一化扫描路径显著性和Precision精确率四个更标准的视觉显著性指标对两个模型的注意力图进行了全面比较。四项指标上SWIM全部优于基础模型AUC从0.62提升到0.67NSS从0.39提升到0.50Precision从0.28提升到0.39AP从0.26提升到0.30。这些数字背后的意思是SWIM生成的注意力图与真实物体遮罩的重合程度更高虚假激活注意力落在非目标区域更少区分目标与非目标的能力更强。七、数据越多越好SWIM的规模扩展潜力一个实用的AI方法除了当下的性能还需要具备越喂越好的潜力——随着数据规模扩大性能能否持续提升研究团队对NL-Refer数据集按照不同规模进行了实验从3万个样本开始逐步增加到5万、8万、10万、最终12.5万个完整样本观察性能变化。结果显示出清晰、单调的上升趋势3万样本时得分3.235万时3.398万时3.6010万时3.6912.5万时3.78。全程没有出现性能停滞或下降的迹象而且在12.5万这个当前最大规模处曲线仍然没有表现出饱和的迹象。这意味着如果能获得更多高质量的遮罩标注数据SWIM的性能还有相当大的提升空间。八、面对换个说法的挑战鲁棒性测试现实世界中的用户描述同一个物体时可能用不同的词有人说男人有人说男性有人说男士。一个真正实用的系统应该在面对这类同义词替换时保持稳定的性能而不是只认识训练时见过的特定词汇。为了测试这一点研究团队把VideoRefer-Bench-D测试集中所有被标记的关键名词替换成同义词然后重新评测。结果显示SWIM在同义词干扰下的得分3.74仅比原始得分3.78低0.04分降幅极为微小。相比之下原始Qwen2.5-VL在没有干扰时得分为2.97加上精确关键词后相当于给它一点额外的语义线索得分为3.43仍然低于SWIM在有同义词干扰时的3.74。这个对比说明SWIM学到的不是死记硬背特定词汇而是对物体语义的深层理解这种理解可以泛化到语言表达的自然变化中。九、实际效果看得见的区别除了数字研究团队也展示了一些具体的对比案例让SWIM的改进变得非常直观。在一个描述类任务中用户让模型描述视频桌子上那个长方形的木质砧板。基础的Qwen2.5-VL描述的是旁边的饼干因为饼干是画面中最显眼的动态物体而SWIM准确描述了那块砧板内容与标准答案高度吻合。在两道选择题案例中SWIM同样选出了正确答案而基础模型都选错了。这些例子都指向同一个问题当AI不能准确将文字描述与视觉区域对应时它会本能地被画面中最显眼的物体吸引而忽视用户真正在问的那个目标。说到底SWIM做的事情并不是给AI添加了某种神奇的新能力而是修复了一个长期被忽视的基础问题当AI读到一个物体名词时它应该真的看向那个物体而不是漫无目的地扫视整个画面。这个问题之所以之前没有被系统性解决很大程度上是因为传统的评测方式问答准确率、描述流畅度并不能直接暴露注意力分布的缺陷需要像这篇论文这样把注意力图可视化出来才能发现。对于普通用户来说这项研究的意义在于未来你在使用AI助手时只需要用自然语言说帮我关注视频里那个戴红帽子的孩子AI就能真正把目光和注意力聚焦在那个孩子身上而不是描述整个场景或者最显眼的背景元素。SWIM的训练方案只需要在训练时提供遮罩推理使用时完全依靠文字这意味着它可以直接集成到现有的模型训练流程中不需要改动模型架构或增加推理时的额外输入。这项研究的完整论文可以通过arXiv编号2605.18018查阅代码和NL-Refer数据集也已开源有兴趣深入了解技术细节的读者可以通过GitHub上的HumanMLLM/SWIM仓库获取。QAQ1SWIM训练方法和普通多模态大模型训练有什么区别A普通多模态大模型训练只要求模型输出正确的文字答案并不管模型内部的注意力是否落在了正确的视觉区域。SWIM在此基础上增加了一个额外的监督信号当模型读到物体名词时它的跨模态注意力图必须和预先标注的物体遮罩尽量重合否则会产生惩罚。这个额外约束迫使模型把名词和对应视觉区域更紧密地绑定在一起从而在推理时仅凭文字就能精准定位目标物体不再需要用户额外提供遮罩或标注框。Q2NL-Refer数据集和原始VideoRefer数据集有什么不同A原始VideoRefer数据集中文字描述用占位符代替目标物体这个符号对人来说要配合视觉标记才能理解AI无法从中学习到名词和视觉区域的对应关系。NL-Refer通过GPT-4o处理把每个替换成了具体的自然语言描述比如那个留胡须的年轻男人同时标记出最核心的名词并保留了与之对应的像素级遮罩。这样AI就能从文字本身直接学习读到这个词就该看那个区域的对应关系。Q3SWIM在视频以外的图像理解任务上也有效吗A当前论文的实验主要集中在视频理解任务上训练数据也以视频为主。不过SWIM的核心机制对跨模态注意力施加遮罩监督在理论上同样适用于静态图像理解场景因为图像和视频在模型的注意力计算方式上本质相同。研究团队并未专门测试纯图像场景但由于基础框架Qwen2.5-VL本身支持图文输入SWIM的训练策略理论上可以迁移到图像领域这也是未来研究可以探索的方向。
南开大学与阿里巴巴联手破解AI“视而不见“难题
发布时间:2026/5/30 1:51:02
这项由南京开大学VCIP计算机科学实验室与阿里巴巴通义实验室联合开展的研究以预印本形式于2026年5月发表在arXiv平台论文编号为arXiv:2605.18018v1。研究提出了名为SWIMSee What I Mean明白我的意思的全新训练策略致力于解决多模态大语言模型在理解用户文字描述时找不准目标物体的根本性问题。你有没有遇到过这样的体验你对着一个智能助手说帮我描述一下街道上那个穿红衣服的人结果它给你描述的却是整条街道或者描述了旁边那辆最显眼的汽车这种答非所问的现象在当下最先进的视觉语言AI系统中普遍存在而且令人沮丧的是这并不是AI没有看到那个人而是它无法把你说的红衣服的人这几个字和视频画面里那个具体的人物准确地对应起来。研究团队把这个问题比作一场沟通错位——AI拥有眼睛也拥有耳朵但眼睛和耳朵之间的翻译系统出了问题。SWIM项目的核心目标就是修复这套翻译系统让AI真正做到明白你说的是哪个。一、为什么AI总是找不准你说的那个物体要理解这个问题可以用一个日常场景来类比。假设你站在一个热闹的菜市场里让一个朋友帮你找那个卖西红柿的摊位。如果你的朋友经验丰富他会把你说的西红柿这个词和视野里某个具体摊位的红色圆形物体对应起来精准锁定目标。但如果这个朋友对市场不熟悉他可能会漫无目的地扫视整个市场最终指向了那个最显眼的大摊位而不是你说的那个。现有的多模态大语言模型可以理解为同时能看图、看视频又能理解文字的AI就像那个不熟悉市场的朋友。为了弄清楚问题出在哪里研究团队做了一个非常直观的实验他们把AI模型在处理文字时的注意力分布可视化出来——也就是说当AI读到某个词的时候它的目光落在图像的哪些区域。实验结果令人意外却又在情理之中。当AI读到棕色、胡须这样描述外观特征的词时它的注意力非常集中准确落在了图像中那个真正棕色的区域、那张真正有胡须的脸上。但当AI读到男人、人这样的名词时注意力却分散得到处都是整张图像上都有一点点激活就像把一滴墨水滴进了一大盆水里哪里都有颜色却哪里都不清晰。这个发现揭示了一个系统性的规律描述外观特征的词颜色、纹理、形状能够精准定位而代表物体本身的名词却总是漫无方向。研究团队分析了其中的原因在AI用来训练的海量图文数据中红色这个词往往只出现在图像里真正红色的区域附近因此AI学到了红色和特定视觉区域的紧密联系。但男人这个词在各种不同的场景下都会出现——室内、室外、近处、远处、正脸、背影——这种多样性导致AI无法把这个词和某个具体的视觉区域牢牢绑定在一起。正因如此当用户用纯文字描述某个物体时AI往往无法准确理解你说的到底是画面里的哪一个。而为了解决这个问题现有的一些方法走了一条绕路让用户额外提供视觉标记——比如在图像上画一个框、打一个点、或者涂一个遮罩——来明确告诉AI就是这个。这种方式虽然有效却背离了人类最自然的交流方式我们说话的时候不会随手拿着画笔在空气中圈出目标物体我们依靠语言本身来指定目标。二、现有解决方案的局限不得不拿着指示棒说话目前学术界和工业界已经有了一批专门针对精细化物体理解的模型它们确实能更好地理解用户指定的具体物体但代价是需要额外的视觉输入。以视频领域为例VideoRefer这类模型需要用户提供对应帧的精确遮罩就像在物体轮廓上描了一圈Ferret需要用户框出物体的位置还有一些模型需要用户点击物体所在的坐标点。这些方法确实能让AI看准目标但使用起来极为不便——普通用户在日常对话中不可能随时准备好这些视觉标注工具。更重要的是这类方法在架构设计上通常需要额外的模块一个专门处理遮罩的编码器、一个额外的视觉区域提取网络……这不仅增加了系统的复杂度也意味着在使用时必须额外准备这些道具。研究团队认为真正理想的系统应该像人类一样只用语言就能精准指定目标不需要任何额外工具。实现这个目标的关键不是给模型增加更多模块而是让模型内部的语言-视觉对应关系变得更加精准。三、构建教材NL-Refer数据集的诞生任何学习都需要好的教材训练AI也不例外。要让AI学会把名词和具体物体对应起来首先需要一批标准答案——每张图、每段视频里文字中提到的物体都要有对应的精确视觉标注。研究团队的出发点是VideoRefer数据集这是一个已有700K个视频样本的视频理解数据集其中每个样本都包含视频帧、文字描述以及物体的像素级遮罩标注。然而问题在于原始数据集中的文字描述用的是一个占位符号来指代目标物体比如请描述视频中的特征。这个占位符对人来说一看就懂结合视觉标记但对于希望从纯文字中学习对应关系的AI来说这等于告诉它这里有个目标物体却没有给出任何语义信息——AI无从知晓这个物体叫什么、有什么特征。为了解决这个问题研究团队设计了一个GPT-4o驱动的数据处理流程。具体而言他们让GPT-4o阅读每个样本中配套的详细描述文字比如一个穿白色T恤、留着胡须的年轻男性正在走路然后让它把文字里的占位符替换成一个简洁、准确的自然语言指代表达式同时在这个表达式里找出最核心的名词比如男人用特殊标记把它包围起来。经过这样处理原本的请描述视频中的特征就变成了请描述视频中那个**留着胡须的年轻男人**在街上行走的特征其中男人这个词被标记出来并且与原来的像素级遮罩直接挂钩。这套经过精心处理的数据集被命名为NL-Refer包含12.5万个视频样本每个样本都建立了从自然语言名词到视觉区域的精确映射。这相当于为AI准备了一套带有精确答案的练习题每道题告诉AI当你读到这个词时你的目光应该落在图像的这个区域。四、SWIM训练策略用考试压力纠正注意力习惯有了高质量的教材接下来是设计训练方法。SWIM的核心思路其实并不复杂在AI训练过程中每当AI读到一个被标记的关键名词时就检查它的注意力是否落在了正确的视觉区域如果没有就给它一个惩罚信号推着它把注意力调整到正确位置上去。具体来说当AI处理一段输入时它的内部有多层注意力机制每一层都在决定当我处理某个词时我应该关注视频画面的哪些部分。研究团队从AI的中间多层同时提取这种注意力分布图然后把这些来自不同层的注意力图取平均得到一张综合的注意力热力图代表AI整体上在关注画面的哪些区域。接下来这张热力图被拿来和预先标注好的物体遮罩即目标物体的真实轮廓进行对比热力图中的高亮区域是否和物体遮罩重合使用的衡量标准是二值交叉熵损失函数——可以理解为一种考卷评分机制它对图像上每个像素点独立打分如果某个像素属于目标物体对应位置的注意力越高越好如果某个像素不属于目标物体对应位置的注意力越低越好。这个评分机制会生成一个罚分罚分越高说明注意力和真实区域偏差越大训练过程会根据这个罚分不断调整AI的参数直到注意力越来越集中在正确区域上。这里有一个非常关键的设计特点这套遮罩监督只在训练阶段使用。当训练完成、模型正式投入使用时用户不需要提供任何遮罩或其他视觉标注只需用普通文字描述目标物体模型就能自动把注意力对准正确区域。这就好比你通过大量练习学会了看到描述就能想象对应画面的能力在实际使用时不再需要图片辅助单凭描述就能在脑海中精准定位目标。关于具体从哪些层提取注意力图研究团队也做了系统性的探索。他们发现从单一层提取效果最差使用六层效果最好再增加层数收益递减。更重要的发现是这六层最好均匀分布在整个网络的浅层到深层而不是集中在某个特定深度段——这说明精准的物体理解需要同时利用低层的纹理特征和高层的语义理解两者缺一不可。在注意力图的合并方式上研究团队对比了加法、最大值池化、乘法、平均值四种方式最终发现直接取平均效果最好。原因在于乘法会导致某个层注意力稍低的区域被整体压低遗漏了部分有效信息而平均值能平滑各层之间的噪声同时保留最显著的激活峰值。在损失函数的选择上研究团队对比了四种方案mIoU损失、Focal损失、Dice损失和二值交叉熵BCE损失。最终BCE损失效果最优原因在于注意力图天然是稀疏的大部分区域注意力接近零而BCE对每个像素独立计算既惩罚了目标区域内的低注意力也惩罚了非目标区域的高注意力与注意力图的稀疏特性非常契合。五、实验结果不只是比别人强一点点研究团队在多个视频理解基准上对SWIM进行了系统测试结果相当令人信服。在VideoRefer-Bench上这个专门评测视频精细化物体理解能力的基准分为两个子任务。第一个子任务VideoRefer-Bench-Q让模型回答关于特定物体的选择题涵盖基础认知、时序关系、物体间关系、推理和预测五个维度。SWIM取得了78.3%的平均准确率比之前最好的专门模型VideoRefer-7B高出6.4个百分点也超过了GPT-4o71.3%和规模更大的InternVL2-26B65.0%。其中提升最明显的是基础认知比Qwen2.5-VL-7B高5.8%和时序关系高5.3%这两类任务都需要AI首先精准识别出目标物体才能作答正好是SWIM改进最核心的能力。第二个子任务VideoRefer-Bench-D要求模型对指定物体进行详细描述评分维度包括主体对应准确性描述的是不是指定的那个物体、外观描述准确性颜色、形状、纹理是否正确、时间动作描述准确性动作、运动是否描述准确、以及幻觉检测有没有编造不存在的细节。SWIM在这四个维度上分别得到4.92、3.85、3.43、2.96分满分5分综合平均3.78分不仅超过了最好的专门模型DAM-8B3.68分也远超GPT-4o3.25分。其中主体对应性和外观描述的提升最为突出这直接反映了SWIM在把名词和视觉区域对应方面的改进。在通用视频理解基准上SWIM在MVBench上得到62.1分超过VideoRefer-7B的59.6在VideoMME上与VideoRefer-7B持平55.9在ActivityNet-QA上得到55.6分。这些结果说明SWIM在专精于精细化物体理解的同时并没有牺牲通用视频理解能力——一个专注于某项技能的训练方法没有让AI偏科。六、AI的目光究竟落在哪里用数字量化注意力精准度为了更直观地验证SWIM确实改善了注意力分布研究团队设计了两套专门的评估指标。第一套是GamePointP指标它衡量的是在AI注意力最高的前P%像素中有多少比例落在了目标物体的遮罩范围内在P1%时SWIM的得分是0.392而基础的Qwen2.5-VL只有0.329提升了6.3个百分点在P5%时提升5.5个百分点在P10%时提升4.7个百分点。这意味着SWIM的注意力峰值更准确、更集中最受关注的那些像素确实更多地落在了目标物体上。第二套是GamePointK指标衡量的是注意力排名靠前的K个像素点中有多少属于目标物体。在K从1到100的各个值上SWIM0.373~0.375始终高于Qwen2.5-VL0.328~0.331且各个K值下的差距非常稳定。这说明SWIM不只是在最高注意力点上表现更好而是整体的注意力排序都更加准确可靠。此外研究团队还用AP平均精度、AUC曲线下面积、NSS归一化扫描路径显著性和Precision精确率四个更标准的视觉显著性指标对两个模型的注意力图进行了全面比较。四项指标上SWIM全部优于基础模型AUC从0.62提升到0.67NSS从0.39提升到0.50Precision从0.28提升到0.39AP从0.26提升到0.30。这些数字背后的意思是SWIM生成的注意力图与真实物体遮罩的重合程度更高虚假激活注意力落在非目标区域更少区分目标与非目标的能力更强。七、数据越多越好SWIM的规模扩展潜力一个实用的AI方法除了当下的性能还需要具备越喂越好的潜力——随着数据规模扩大性能能否持续提升研究团队对NL-Refer数据集按照不同规模进行了实验从3万个样本开始逐步增加到5万、8万、10万、最终12.5万个完整样本观察性能变化。结果显示出清晰、单调的上升趋势3万样本时得分3.235万时3.398万时3.6010万时3.6912.5万时3.78。全程没有出现性能停滞或下降的迹象而且在12.5万这个当前最大规模处曲线仍然没有表现出饱和的迹象。这意味着如果能获得更多高质量的遮罩标注数据SWIM的性能还有相当大的提升空间。八、面对换个说法的挑战鲁棒性测试现实世界中的用户描述同一个物体时可能用不同的词有人说男人有人说男性有人说男士。一个真正实用的系统应该在面对这类同义词替换时保持稳定的性能而不是只认识训练时见过的特定词汇。为了测试这一点研究团队把VideoRefer-Bench-D测试集中所有被标记的关键名词替换成同义词然后重新评测。结果显示SWIM在同义词干扰下的得分3.74仅比原始得分3.78低0.04分降幅极为微小。相比之下原始Qwen2.5-VL在没有干扰时得分为2.97加上精确关键词后相当于给它一点额外的语义线索得分为3.43仍然低于SWIM在有同义词干扰时的3.74。这个对比说明SWIM学到的不是死记硬背特定词汇而是对物体语义的深层理解这种理解可以泛化到语言表达的自然变化中。九、实际效果看得见的区别除了数字研究团队也展示了一些具体的对比案例让SWIM的改进变得非常直观。在一个描述类任务中用户让模型描述视频桌子上那个长方形的木质砧板。基础的Qwen2.5-VL描述的是旁边的饼干因为饼干是画面中最显眼的动态物体而SWIM准确描述了那块砧板内容与标准答案高度吻合。在两道选择题案例中SWIM同样选出了正确答案而基础模型都选错了。这些例子都指向同一个问题当AI不能准确将文字描述与视觉区域对应时它会本能地被画面中最显眼的物体吸引而忽视用户真正在问的那个目标。说到底SWIM做的事情并不是给AI添加了某种神奇的新能力而是修复了一个长期被忽视的基础问题当AI读到一个物体名词时它应该真的看向那个物体而不是漫无目的地扫视整个画面。这个问题之所以之前没有被系统性解决很大程度上是因为传统的评测方式问答准确率、描述流畅度并不能直接暴露注意力分布的缺陷需要像这篇论文这样把注意力图可视化出来才能发现。对于普通用户来说这项研究的意义在于未来你在使用AI助手时只需要用自然语言说帮我关注视频里那个戴红帽子的孩子AI就能真正把目光和注意力聚焦在那个孩子身上而不是描述整个场景或者最显眼的背景元素。SWIM的训练方案只需要在训练时提供遮罩推理使用时完全依靠文字这意味着它可以直接集成到现有的模型训练流程中不需要改动模型架构或增加推理时的额外输入。这项研究的完整论文可以通过arXiv编号2605.18018查阅代码和NL-Refer数据集也已开源有兴趣深入了解技术细节的读者可以通过GitHub上的HumanMLLM/SWIM仓库获取。QAQ1SWIM训练方法和普通多模态大模型训练有什么区别A普通多模态大模型训练只要求模型输出正确的文字答案并不管模型内部的注意力是否落在了正确的视觉区域。SWIM在此基础上增加了一个额外的监督信号当模型读到物体名词时它的跨模态注意力图必须和预先标注的物体遮罩尽量重合否则会产生惩罚。这个额外约束迫使模型把名词和对应视觉区域更紧密地绑定在一起从而在推理时仅凭文字就能精准定位目标物体不再需要用户额外提供遮罩或标注框。Q2NL-Refer数据集和原始VideoRefer数据集有什么不同A原始VideoRefer数据集中文字描述用占位符代替目标物体这个符号对人来说要配合视觉标记才能理解AI无法从中学习到名词和视觉区域的对应关系。NL-Refer通过GPT-4o处理把每个替换成了具体的自然语言描述比如那个留胡须的年轻男人同时标记出最核心的名词并保留了与之对应的像素级遮罩。这样AI就能从文字本身直接学习读到这个词就该看那个区域的对应关系。Q3SWIM在视频以外的图像理解任务上也有效吗A当前论文的实验主要集中在视频理解任务上训练数据也以视频为主。不过SWIM的核心机制对跨模态注意力施加遮罩监督在理论上同样适用于静态图像理解场景因为图像和视频在模型的注意力计算方式上本质相同。研究团队并未专门测试纯图像场景但由于基础框架Qwen2.5-VL本身支持图文输入SWIM的训练策略理论上可以迁移到图像领域这也是未来研究可以探索的方向。