AAAI 2025 | VHM:面向遥感图像分析的通用可信视觉语言模型 文章目录1.论文信息2.论文主要贡献3.论文创新点4.方法4.1 VersaD4.1.1 数据集构建4.1.2 质量评估4.1.3 指令构建4.2 HnstD4.2.1 数据集构建4.2.2 诚实回答4.3 多功能且可靠的视觉语言模型4.3.1 模型架构4.3.2 训练策略5.实验分析5.1 数据集5.2 多功能性评估5.2.1 VHM专属能力5.2.2 VLM通用能力5.3 诚实性评估5.4 消融实验验证5.4.1 训练策略5.4.2 富文本描述和稀疏内容描述5.4.3 多级别视觉表示和单级别视觉表示6.个人声明1.论文信息论文题目VHM: Versatile and Honest Vision Language Model for Remote Sensing Image Analysis论文作者Chao Pang, Xingxing Weng, Jiang Wu, Jiayu Li, Yi Liu, Jiaxing Sun3, Weijia, Shuai Wang, Litong Feng, Gui-Song Xia, Conghui He发表单位武汉大学计算机学院、武汉大学LIESMARS国家重点实验室、武汉大学数学与人工智能研究院、上海人工智能实验室、中山大学地理科学与规划学院、商汤科技研究院发表会议AAAI 2025代码链接https://github.com/opendatalab/VHM.2.论文主要贡献数据层面构建了大规模的遥感图像-文本数据集VersaD提升通用性以及针对RS的诚实性数据集HnstD具备诚实性模型层面开发了 VHM 模型专为遥感图像分析设计的通用且可靠的视觉语言模型通过两阶段训练与多尺度视觉表示融合实现了在多种遥感任务上的 SOTA 性能同时有效抑制了模型幻觉增强了回答的可靠性3.论文创新点提出了两个专为遥感领域设计的数据集VersaD包含140 万条带丰富描述的遥感图像 - 文本对解决了现有遥感图文数据描述简单、语义信息不足的问题为模型提供了多任务通用的视觉 - 语言对齐能力HnstD首个遥感领域的 “诚实指令数据集”不仅包含常规事实性问题还引入了大量对象不存在的欺骗性问题从数据层面解决了模型对无意义问题 “强行作答” 的 “幻觉” 问题双阶段训练策略与多尺度视觉表示融合采用“预训练 指令微调” 的两阶段训练框架第一阶段利用 VersaD 对齐视觉与语言模态第二阶段结合 HnstD 微调同时融入多尺度视觉特征让模型既能理解细节又能把握全局场景实现了“多功能性”和“诚实性”的双重突破模型在遥感图像理解的多任务上实现了 SOTA 性能同时对不存在的对象或无意义问题能诚实回答 “不知道”大幅提升了模型在真实遥感场景中的可靠性4.方法图1多功能性与真实性的示例。在图(a)中红色加粗字体为说明文字中的关键信息。现有的用于视觉语言模型VLM预训练的数据集通常包含内容稀疏的说明文字仅聚焦于少数突出的物体及其相互关系。相比之下VersaD说明文字对图像属性、物体特征和场景背景进行了详细描述。这些内容丰富的说明文字有助于更全面地理解遥感RS图像从而提升视觉语言模型完成各类遥感任务的能力。此外用于视觉语言模型微调的指令数据集通常仅包含关于图像中现有物体的事实性问题见图(a)中的橙色字体这可能导致视觉语言模型在面对关于不存在物体的无意义查询时为给出肯定回答而编造信息。相比之下我们的HnstD数据集同时包含事实性问题和欺骗性问题旨在让视觉语言模型具备真实性。现存问题一现有包含稀疏内容描述的图文严重阻碍了视觉-语言模型对遥感图像的全面理解限制了其完成各类遥感图像分析任务的能力-通用性不足现存问题二当面对具有欺骗性问题时视觉语言模型会通过虚假回答给出肯定的回应-真实性不足通用性在提示词中纳入元数据、目标属性、场景上下文要素提升通用性真实性构建HnstD数据集每个样本由一张RS图像搭配问答对除存在性问题外每种类型问题分为事实性和欺骗性两类新任务诚实回答4.1 VersaD4.1.1 数据集构建近140万张遥感图像用Gemini-Vision为其生成文本标注提示词涵盖图像属性、物体属性、场景上下文4.1.2 质量评估You are a powerful remote sensing and aerial image captioner. Please create detailed captions describing the contents of the given image. The caption annotation procedure follows the principles of: Prompt-1: describing the image attributes, including satellite/aerial images, color/panchromatic images, and high/low resolution; Prompt-2: describing object attributes, including object quantity, color, material, shape, size, and spatial position (including absolute position in the image and relative position between objects); Prompt-3: generally, the annotation process involves first describing the overall scene of the image, followed by describing specific object. Prompt-4: Instead of describing the imaginary content, only describing the content one can determine confidently from the image. Do not describe the contents by itemizing them in list form. Minimize aesthetic descriptions as much as possible.图2用于生成内容丰富的字幕的提示词你是一名专业的遥感和航拍图像描述标注人员。请生成详细的图像描述来阐述给定图像的内容。图像标注描述需遵循以下原则提示一描述图像属性包括卫星/航拍图像、彩色/全色图像以及高/低分辨率提示二描述目标物体属性包括物体数量、颜色、材质、形状、尺寸以及空间位置包含图像中的绝对位置和物体间的相对位置提示三标注流程通常为先描述图像整体场景再描述具体物体提示四仅描述从图像中可确定的内容不描述想象的内容。切勿以列表形式逐条描述内容尽量减少美学性描述。随机抽取进行人工质量检查拆分句子分为三个档次完全准确、不完全准确、完全不准确69%、20%54%、11%-整体准确率达到百分之八十性能优于在内容稀疏但标题准确的数据集上训练的模型标题中丰富的内容可以弥补噪声带来的影响4.1.3 指令构建选取三个目标检测数据集DOTA-v2、Fair1M和DIOR随机抽取3万张遥感图像借助GeminiVision和提示词为这些图像生成内容丰富的说明文字。基于这些内容丰富的说明文字和边界框标注仅通过语言类Gemini生成多轮对话与推理数据-VersaD-Instruct数据集2.6万张用于对话任务4千张用于复杂推理任务4.2 HnstD4.2.1 数据集构建每个样本一张遥感图像搭配单轮对话同时涵盖事实性问题和欺骗性问题基于 DOTA-v2和 Fair1M构建四类识别任务目标物体的相对位置、目标是否存在、颜色以及绝对位置除目标存在性任务外其余所有任务均同时设有事实性问题和欺骗性问题关于目标物体颜色的欺骗性问题源于物体本身不存在或物体出现在全色图像中这两种情况关于相对位置和绝对位置的欺骗性问题则由物体不存在导致图3HnstD数据集中的样本问题形式目标存在性任务采用是非题形式颜色任务采用开放式问题形式相对位置和绝对位置任务采用包含五个候选答案的单选题总包含超4.5 万组问答对均经人工审核4.2.2 诚实回答评估诚实度在定量评估方面采用匹配策略计算存在性任务、相对位置任务和绝对位置任务的准确率包含两类其准确率A c c AccAcc为事实类问题A c c f a c t Acc_{fact}Accfact​与欺骗性问题A c c d e c Acc_{dec}Accdec​的平均值A c c A c c f a c t A c c d e c 2.0 , (1) Acc \frac{Acc_{fact} Acc_{dec}}{2.0}, \tag{1}Acc2.0Accfact​Accdec​​,(1)其中A c c f a c t Acc_{fact}Accfact​A c c d e c Acc_{dec}Accdec​为对应任务下准确率的平均值表示回答正确的问题数量与事实类欺骗性问题总数的比值。针对颜色任务我们采用匹配策略和 ChatGPT-3.5 接口分别对事实类问题和欺骗性问题进行评估。由于颜色任务的欺骗性问题存在两种成因该任务的准确率计算方式如下A c c A c c f a c t A c c d e c e x A c c d e c e x A c c d e c p a n 2.0 2.0 , (2) Acc \frac{Acc_{fact} \frac{Acc_{dec}^{ex} Acc_{dec}^{ex} Acc_{dec}^{pan}}{2.0}}{2.0}, \tag{2}Acc2.0Accfact​2.0Accdecex​Accdecex​Accdecpan​​​,(2)其中A c c d e c e x Acc_{dec}^{ex}Accdecex​和A c c d e c p a n Acc_{dec}^{pan}Accdecpan​分别为源于全色图像中目标物体不存在与存在这两种情况的欺骗性问题的准确率把两类成因的问题按照样本权重来计算目标物体不存在的欺骗性问题样本数量是目标物体存在的欺骗性问题的2倍表3各类RS-Instruct数据集的信息4.3 多功能且可靠的视觉语言模型4.3.1 模型架构三个主要组件视觉编码器、投影层、大语言模型LLM视觉编码器将遥感图像压缩为更紧凑的视觉表征大语言模型接受视觉和文本两类信息以执行推理任务投影层LLM仅具备文本感知能力弥合自然语言与图像之间的模态差距选择预训练的CLIPLarge(视觉编码器)负责把遥感图像转换成语义特征向量后续通过一个两层 MLP 投影层把 CLIP-Large 输出的特征映射到和 Vicuna-7B 语言模型兼容的维度从而实现视觉 - 语言模态的融合。4.3.2 训练策略采用两阶段策略来训练VHM预训练阶段以LLaVA的预训练权重为基础利用大规模VersaD数据集优化VHM的所有组件将RS视觉知识融入模型中监督微调阶段使用 VersaDInstruct、VariousRS-Instruct 和 HnstD 三个指令数据集对压缩层、投影层进行有监督微调SFT5.实验分析5.1 数据集采用多个遥感RS数据集针对现有视觉语言模型VLM支持的各类任务开展对比实验。包括五个场景分类数据集NWPU、METERML、SIRI-WHU、AID、WHU-RS19两个视觉问答数据集RSVQA-LR 和 RSVQA-HR一个视觉定位数据集DIOR-RSVG5.2 多功能性评估5.2.1 VHM专属能力表 4 列出了为遥感图像分析量身定制的视觉语言模型所具备的能力。VHM 能够执行更多任务例如建筑矢量化和多标签分类这些任务对于自然资源监测至关重要。由于与 VHM 专属能力相关的任务涉及竞争对手不支持的开放式问题我们仅使用 VariousRS-instruct 数据集的测试集对 VHM 的性能进行定量评估。表 5 中VHM 在图像属性识别方面表现出色准确率达到 95%在图像模态任务中表现出色在图像分辨率任务中的平均绝对误差为0.24在向量构建和零样本多标签分类任务中也展现出了可靠的性能。然而它在准确计数物体和测量几何属性方面面临挑战相应的平均绝对误差分别高达6.75和12.82。总体而言这些结果证实了视觉-语言模型VLMs在推动更多遥感RS图像分析任务发展方面的潜力。建筑矢量化把建筑轮廓转成矢量多边形指标是考虑复杂度的交并比5.2.2 VLM通用能力表7RSVQA-LR 是基于 Sentinel-2 低分辨率卫星影像构建的遥感视觉问答数据集LR-rural判断图象是农村还是城市场景LR-presence判断图像中是否存在指定地物LR-compare对图像中的不同区域进行对比通用模型与遥感模型的差距巨大Gemini-Vision 的平均分仅为 64.76而遥感专用模型普遍在 84 分以上最高达 92.49 分差距近 30 分直接证明了遥感领域预训练的必要性。VHM 的定位与表现VHM 并非所有任务都排名第一但整体性能均衡超过了此前的 LHRS-Bot验证了其在低分辨率遥感视觉问答任务上的有效性。不同模型的任务偏好RSGPT 在农村分类上表现突出GeoChat 擅长区域对比而 VHM 则在多任务上表现更均衡。表8RSVQA-HR 是基于高分辨率卫星影像构建的遥感视觉问答数据集通用 VLM如 LLaVA-1.5、Gemini-Vision在地物存在性判断上表现尚可但对比推理能力弱而遥感专用模型GeoChat、EarthGPT、VHM普遍在对比任务上表现更优验证了遥感领域预训练的有效性。VHM 的优势VHM 以 73.75 的平均分领跑所有模型尤其是在 HR-compare 任务上达到 83.50 的最高分说明其在高分辨率遥感场景的关系推理、对比理解能力上表现出色同时在存在性判断上也保持了稳定的性能。任务偏好差异LLaVA-1.5 擅长存在性判断GeoChat 擅长对比推理而 VHM 实现了两者的均衡与提升综合性能最优表9展示了在DIOR-RSVG数据集上视觉定位任务的结果采用交并比IoU阈值0.5作为评估指标。图像的原始尺寸为800×800为适配视觉语言模型VLMs的输入进行下采样。下采样比例越高目标尺寸越小其视觉特征也越少这给目标的精准定位带来了挑战。VHM在输入尺寸最小的336×336情况下仍以11.59的优势超越了表现最佳的竞品。这一优势源于对底层特征中空间信息的利用设计。图 4 展示了用户与 VHM 模型之间的对话示例。VHM 能够对图像中的物体、场景及其属性如颜色、形状、布局给出细致描述体现了它对输入遥感RS图像的深度理解能力VHM 可以有效完成各类遥感图像分析任务包括目标计数、相对位置识别和图像分辨率估计同时给出真实可靠的回答5.3 诚实性评估表格 11VLM 在诚实问答任务HnstD上的性能注Fact. 代表事实性问题Dec. 代表欺骗性问题后缀 Ex 与 Pan 分别表示因 “目标不存在” 和 “目标在全色图像中存在” 引发的欺骗性问题5.4 消融实验验证5.4.1 训练策略我们将额外在 VersaD 上预训练的模型与直接采用 LLaVA 预训练权重的模型进行对比。两个模型均在我们的 VariousRS-Instruct 和 HnstD 数据集上微调。为保证公平性两者使用了相同的模型架构且 LLaVA 采用单级别视觉表示。如表 10 所示经过遥感数据预训练的模型在多个任务上显著优于基线模型这证实了通过大规模遥感图文数据集融入遥感视觉知识的重要性5.4.2 富文本描述和稀疏内容描述图10 不同训练策略与预训练数据集的对比遥感预训练的必要性第一行无 RS 预训练与第二行使用 VersaD 预训练对比仅增加遥感预训练模型在所有任务上的性能均大幅提升尤其是视觉定位任务从 28.23 提升至 51.06证明了融入遥感领域知识对 VLM 的重要性多级别视觉表示的增益第二行单级别表示与最后一行多级别表示对比加入多级别视觉表示后模型在 ** 场景分类0.08和视觉定位8.46** 任务上均有显著提升视觉定位的提升明显验证了多级别特征融合对空间细节感知的增强作用不同预训练数据集的对比相同的训练设置RS 预训练 多级别表示下VersaD 在 ** 场景分类84.79和视觉定位59.52** 任务上全面优于 RS5M 系列和 SkyScript 数据集仅在视觉问答任务上略低于 SkyScript整体性能最优。说明 VersaD 数据集的质量和内容设计更适配遥感 VLM 的训练需求5.4.3 多级别视觉表示和单级别视觉表示将其与仅使用视觉编码器最后一层特征作为单级别图像特征的模型进行对比两个模型均在 VersaD、VersaD-Instruct、VariousRS-Instruct 和 HnstD 上优化基线模型仅使用视觉编码器最后一层的特征作为图像表示改进模型融合了视觉编码器多个层级的特征形成多级别视觉表示多级别视觉表示在视觉定位任务上带来了约9.21%的显著提升验证了低层特征中包含的空间细节信息对目标定位的重要性多级别特征融合是针对性优化定位能力的有效手段不会损害模型的通用能力6.个人声明本文为作者对原论文的学习笔记与心得分享受个人学识与理解所限文中对论文内容的解读或有不够周全之处一切以原论文正式表述为准。本文仅用于学术交流与传播内容均由作者独立整理完成不代表本公众号立场。如文中所涉文字、图片等内容存在版权争议请及时与作者联系作者将在第一时间核实并妥善处理。