AAAI 2025 | VHM:面向遥感图像分析的通用可信视觉语言模型

发布时间：2026/5/25 17:35:11

文章目录1.论文信息2.论文主要贡献3.论文创新点4.方法4.1 VersaD4.1.1 数据集构建4.1.2 质量评估4.1.3 指令构建4.2 HnstD4.2.1 数据集构建4.2.2 诚实回答4.3 多功能且可靠的视觉语言模型4.3.1 模型架构4.3.2 训练策略5.实验分析5.1 数据集5.2 多功能性评估5.2.1 VHM专属能力5.2.2 VLM通用能力5.3 诚实性评估5.4 消融实验验证5.4.1 训练策略5.4.2 富文本描述和稀疏内容描述5.4.3 多级别视觉表示和单级别视觉表示6.个人声明1.论文信息论文题目VHM: Versatile and Honest Vision Language Model for Remote Sensing Image Analysis论文作者Chao Pang, Xingxing Weng, Jiang Wu, Jiayu Li, Yi Liu, Jiaxing Sun3, Weijia, Shuai Wang, Litong Feng, Gui-Song Xia, Conghui He发表单位武汉大学计算机学院、武汉大学LIESMARS国家重点实验室、武汉大学数学与人工智能研究院、上海人工智能实验室、中山大学地理科学与规划学院、商汤科技研究院发表会议AAAI 2025代码链接https://github.com/opendatalab/VHM.2.论文主要贡献数据层面构建了大规模的遥感图像-文本数据集VersaD提升通用性以及针对RS的诚实性数据集HnstD具备诚实性模型层面开发了 VHM 模型专为遥感图像分析设计的通用且可靠的视觉语言模型通过两阶段训练与多尺度视觉表示融合实现了在多种遥感任务上的 SOTA 性能同时有效抑制了模型幻觉增强了回答的可靠性3.论文创新点提出了两个专为遥感领域设计的数据集VersaD包含140 万条带丰富描述的遥感图像 - 文本对解决了现有遥感图文数据描述简单、语义信息不足的问题为模型提供了多任务通用的视觉 - 语言对齐能力HnstD首个遥感领域的 “诚实指令数据集”不仅包含常规事实性问题还引入了大量对象不存在的欺骗性问题从数据层面解决了模型对无意义问题 “强行作答” 的 “幻觉” 问题双阶段训练策略与多尺度视觉表示融合采用“预训练指令微调” 的两阶段训练框架第一阶段利用 VersaD 对齐视觉与语言模态第二阶段结合 HnstD 微调同时融入多尺度视觉特征让模型既能理解细节又能把握全局场景实现了“多功能性”和“诚实性”的双重突破模型在遥感图像理解的多任务上实现了 SOTA 性能同时对不存在的对象或无意义问题能诚实回答 “不知道”大幅提升了模型在真实遥感场景中的可靠性4.方法图1多功能性与真实性的示例。在图(a)中红色加粗字体为说明文字中的关键信息。现有的用于视觉语言模型VLM预训练的数据集通常包含内容稀疏的说明文字仅聚焦于少数突出的物体及其相互关系。相比之下VersaD说明文字对图像属性、物体特征和场景背景进行了详细描述。这些内容丰富的说明文字有助于更全面地理解遥感RS图像从而提升视觉语言模型完成各类遥感任务的能力。此外用于视觉语言模型微调的指令数据集通常仅包含关于图像中现有物体的事实性问题见图(a)中的橙色字体这可能导致视觉语言模型在面对关于不存在物体的无意义查询时为给出肯定回答而编造信息。相比之下我们的HnstD数据集同时包含事实性问题和欺骗性问题旨在让视觉语言模型具备真实性。现存问题一现有包含稀疏内容描述的图文严重阻碍了视觉-语言模型对遥感图像的全面理解限制了其完成各类遥感图像分析任务的能力-通用性不足现存问题二当面对具有欺骗性问题时视觉语言模型会通过虚假回答给出肯定的回应-真实性不足通用性在提示词中纳入元数据、目标属性、场景上下文要素提升通用性真实性构建HnstD数据集每个样本由一张RS图像搭配问答对除存在性问题外每种类型问题分为事实性和欺骗性两类新任务诚实回答4.1 VersaD4.1.1 数据集构建近140万张遥感图像用Gemini-Vision为其生成文本标注提示词涵盖图像属性、物体属性、场景上下文4.1.2 质量评估You are a powerful remote sensing and aerial image captioner. Please create detailed captions describing the contents of the given image. The caption annotation procedure follows the principles of: Prompt-1: describing the image attributes, including satellite/aerial images, color/panchromatic images, and high/low resolution; Prompt-2: describing object attributes, including object quantity, color, material, shape, size, and spatial position (including absolute position in the image and relative position between objects); Prompt-3: generally, the annotation process involves first describing the overall scene of the image, followed by describing specific object. Prompt-4: Instead of describing the imaginary content, only describing the content one can determine confidently from the image. Do not describe the contents by itemizing them in list form. Minimize aesthetic descriptions as much as possible.图2用于生成内容丰富的字幕的提示词你是一名专业的遥感和航拍图像描述标注人员。请生成详细的图像描述来阐述给定图像的内容。图像标注描述需遵循以下原则提示一描述图像属性包括卫星/航拍图像、彩色/全色图像以及高/低分辨率提示二描述目标物体属性包括物体数量、颜色、材质、形状、尺寸以及空间位置包含图像中的绝对位置和物体间的相对位置提示三标注流程通常为先描述图像整体场景再描述具体物体提示四仅描述从图像中可确定的内容不描述想象的内容。切勿以列表形式逐条描述内容尽量减少美学性描述。随机抽取进行人工质量检查拆分句子分为三个档次完全准确、不完全准确、完全不准确69%、20%54%、11%-整体准确率达到百分之八十性能优于在内容稀疏但标题准确的数据集上训练的模型标题中丰富的内容可以弥补噪声带来的影响4.1.3 指令构建选取三个目标检测数据集DOTA-v2、Fair1M和DIOR随机抽取3万张遥感图像借助GeminiVision和提示词为这些图像生成内容丰富的说明文字。基于这些内容丰富的说明文字和边界框标注仅通过语言类Gemini生成多轮对话与推理数据-VersaD-Instruct数据集2.6万张用于对话任务4千张用于复杂推理任务4.2 HnstD4.2.1 数据集构建每个样本一张遥感图像搭配单轮对话同时涵盖事实性问题和欺骗性问题基于 DOTA-v2和 Fair1M构建四类识别任务目标物体的相对位置、目标是否存在、颜色以及绝对位置除目标存在性任务外其余所有任务均同时设有事实性问题和欺骗性问题关于目标物体颜色的欺骗性问题源于物体本身不存在或物体出现在全色图像中这两种情况关于相对位置和绝对位置的欺骗性问题则由物体不存在导致图3HnstD数据集中的样本问题形式目标存在性任务采用是非题形式颜色任务采用开放式问题形式相对位置和绝对位置任务采用包含五个候选答案的单选题总包含超4.5 万组问答对均经人工审核4.2.2 诚实回答评估诚实度在定量评估方面采用匹配策略计算存在性任务、相对位置任务和绝对位置任务的准确率包含两类其准确率A c c AccAcc为事实类问题A c c f a c t Acc_{fact}Accfact与欺骗性问题A c c d e c Acc_{dec}Accdec的平均值A c c A c c f a c t A c c d e c 2.0 , (1) Acc \frac{Acc_{fact} Acc_{dec}}{2.0}, \tag{1}Acc2.0AccfactAccdec,(1)其中A c c f a c t Acc_{fact}AccfactA c c d e c Acc_{dec}Accdec为对应任务下准确率的平均值表示回答正确的问题数量与事实类欺骗性问题总数的比值。针对颜色任务我们采用匹配策略和 ChatGPT-3.5 接口分别对事实类问题和欺骗性问题进行评估。由于颜色任务的欺骗性问题存在两种成因该任务的准确率计算方式如下A c c A c c f a c t A c c d e c e x A c c d e c e x A c c d e c p a n 2.0 2.0 , (2) Acc \frac{Acc_{fact} \frac{Acc_{dec}^{ex} Acc_{dec}^{ex} Acc_{dec}^{pan}}{2.0}}{2.0}, \tag{2}Acc2.0Accfact2.0AccdecexAccdecexAccdecpan,(2)其中A c c d e c e x Acc_{dec}^{ex}Accdecex和A c c d e c p a n Acc_{dec}^{pan}Accdecpan分别为源于全色图像中目标物体不存在与存在这两种情况的欺骗性问题的准确率把两类成因的问题按照样本权重来计算目标物体不存在的欺骗性问题样本数量是目标物体存在的欺骗性问题的2倍表3各类RS-Instruct数据集的信息4.3 多功能且可靠的视觉语言模型4.3.1 模型架构三个主要组件视觉编码器、投影层、大语言模型LLM视觉编码器将遥感图像压缩为更紧凑的视觉表征大语言模型接受视觉和文本两类信息以执行推理任务投影层LLM仅具备文本感知能力弥合自然语言与图像之间的模态差距选择预训练的CLIPLarge(视觉编码器)负责把遥感图像转换成语义特征向量后续通过一个两层 MLP 投影层把 CLIP-Large 输出的特征映射到和 Vicuna-7B 语言模型兼容的维度从而实现视觉 - 语言模态的融合。4.3.2 训练策略采用两阶段策略来训练VHM预训练阶段以LLaVA的预训练权重为基础利用大规模VersaD数据集优化VHM的所有组件将RS视觉知识融入模型中监督微调阶段使用 VersaDInstruct、VariousRS-Instruct 和 HnstD 三个指令数据集对压缩层、投影层进行有监督微调SFT5.实验分析5.1 数据集采用多个遥感RS数据集针对现有视觉语言模型VLM支持的各类任务开展对比实验。包括五个场景分类数据集NWPU、METERML、SIRI-WHU、AID、WHU-RS19两个视觉问答数据集RSVQA-LR 和 RSVQA-HR一个视觉定位数据集DIOR-RSVG5.2 多功能性评估5.2.1 VHM专属能力表 4 列出了为遥感图像分析量身定制的视觉语言模型所具备的能力。VHM 能够执行更多任务例如建筑矢量化和多标签分类这些任务对于自然资源监测至关重要。由于与 VHM 专属能力相关的任务涉及竞争对手不支持的开放式问题我们仅使用 VariousRS-instruct 数据集的测试集对 VHM 的性能进行定量评估。表 5 中VHM 在图像属性识别方面表现出色准确率达到 95%在图像模态任务中表现出色在图像分辨率任务中的平均绝对误差为0.24在向量构建和零样本多标签分类任务中也展现出了可靠的性能。然而它在准确计数物体和测量几何属性方面面临挑战相应的平均绝对误差分别高达6.75和12.82。总体而言这些结果证实了视觉-语言模型VLMs在推动更多遥感RS图像分析任务发展方面的潜力。建筑矢量化把建筑轮廓转成矢量多边形指标是考虑复杂度的交并比5.2.2 VLM通用能力表7RSVQA-LR 是基于 Sentinel-2 低分辨率卫星影像构建的遥感视觉问答数据集LR-rural判断图象是农村还是城市场景LR-presence判断图像中是否存在指定地物LR-compare对图像中的不同区域进行对比通用模型与遥感模型的差距巨大Gemini-Vision 的平均分仅为 64.76而遥感专用模型普遍在 84 分以上最高达 92.49 分差距近 30 分直接证明了遥感领域预训练的必要性。VHM 的定位与表现VHM 并非所有任务都排名第一但整体性能均衡超过了此前的 LHRS-Bot验证了其在低分辨率遥感视觉问答任务上的有效性。不同模型的任务偏好RSGPT 在农村分类上表现突出GeoChat 擅长区域对比而 VHM 则在多任务上表现更均衡。表8RSVQA-HR 是基于高分辨率卫星影像构建的遥感视觉问答数据集通用 VLM如 LLaVA-1.5、Gemini-Vision在地物存在性判断上表现尚可但对比推理能力弱而遥感专用模型GeoChat、EarthGPT、VHM普遍在对比任务上表现更优验证了遥感领域预训练的有效性。VHM 的优势VHM 以 73.75 的平均分领跑所有模型尤其是在 HR-compare 任务上达到 83.50 的最高分说明其在高分辨率遥感场景的关系推理、对比理解能力上表现出色同时在存在性判断上也保持了稳定的性能。任务偏好差异LLaVA-1.5 擅长存在性判断GeoChat 擅长对比推理而 VHM 实现了两者的均衡与提升综合性能最优表9展示了在DIOR-RSVG数据集上视觉定位任务的结果采用交并比IoU阈值0.5作为评估指标。图像的原始尺寸为800×800为适配视觉语言模型VLMs的输入进行下采样。下采样比例越高目标尺寸越小其视觉特征也越少这给目标的精准定位带来了挑战。VHM在输入尺寸最小的336×336情况下仍以11.59的优势超越了表现最佳的竞品。这一优势源于对底层特征中空间信息的利用设计。图 4 展示了用户与 VHM 模型之间的对话示例。VHM 能够对图像中的物体、场景及其属性如颜色、形状、布局给出细致描述体现了它对输入遥感RS图像的深度理解能力VHM 可以有效完成各类遥感图像分析任务包括目标计数、相对位置识别和图像分辨率估计同时给出真实可靠的回答5.3 诚实性评估表格 11VLM 在诚实问答任务HnstD上的性能注Fact. 代表事实性问题Dec. 代表欺骗性问题后缀 Ex 与 Pan 分别表示因 “目标不存在” 和 “目标在全色图像中存在” 引发的欺骗性问题5.4 消融实验验证5.4.1 训练策略我们将额外在 VersaD 上预训练的模型与直接采用 LLaVA 预训练权重的模型进行对比。两个模型均在我们的 VariousRS-Instruct 和 HnstD 数据集上微调。为保证公平性两者使用了相同的模型架构且 LLaVA 采用单级别视觉表示。如表 10 所示经过遥感数据预训练的模型在多个任务上显著优于基线模型这证实了通过大规模遥感图文数据集融入遥感视觉知识的重要性5.4.2 富文本描述和稀疏内容描述图10 不同训练策略与预训练数据集的对比遥感预训练的必要性第一行无 RS 预训练与第二行使用 VersaD 预训练对比仅增加遥感预训练模型在所有任务上的性能均大幅提升尤其是视觉定位任务从 28.23 提升至 51.06证明了融入遥感领域知识对 VLM 的重要性多级别视觉表示的增益第二行单级别表示与最后一行多级别表示对比加入多级别视觉表示后模型在 ** 场景分类0.08和视觉定位8.46** 任务上均有显著提升视觉定位的提升明显验证了多级别特征融合对空间细节感知的增强作用不同预训练数据集的对比相同的训练设置RS 预训练多级别表示下VersaD 在 ** 场景分类84.79和视觉定位59.52** 任务上全面优于 RS5M 系列和 SkyScript 数据集仅在视觉问答任务上略低于 SkyScript整体性能最优。说明 VersaD 数据集的质量和内容设计更适配遥感 VLM 的训练需求5.4.3 多级别视觉表示和单级别视觉表示将其与仅使用视觉编码器最后一层特征作为单级别图像特征的模型进行对比两个模型均在 VersaD、VersaD-Instruct、VariousRS-Instruct 和 HnstD 上优化基线模型仅使用视觉编码器最后一层的特征作为图像表示改进模型融合了视觉编码器多个层级的特征形成多级别视觉表示多级别视觉表示在视觉定位任务上带来了约9.21%的显著提升验证了低层特征中包含的空间细节信息对目标定位的重要性多级别特征融合是针对性优化定位能力的有效手段不会损害模型的通用能力6.个人声明本文为作者对原论文的学习笔记与心得分享受个人学识与理解所限文中对论文内容的解读或有不够周全之处一切以原论文正式表述为准。本文仅用于学术交流与传播内容均由作者独立整理完成不代表本公众号立场。如文中所涉文字、图片等内容存在版权争议请及时与作者联系作者将在第一时间核实并妥善处理。

在 Hermes Agent 项目中配置自定义模型提供商指向 Taotoken 服务

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度在 Hermes Agent 项目中配置自定义模型提供商指向 Taotoken 服务 Hermes Agent 是一个功能强大的 AI 智能体开发框架，支…

2026/5/25 17:35:11 阅读更多

Unity+VSCode深度配置指南：解决C#补全与调试失效问题

1. 为什么Unity开发者还在用记事本改csproj？——VSCode不是“装上就能用”的万能编辑器我第一次在Unity项目里用VSCode写C#时，信心满满地删掉了Visual Studio Community——毕竟官方文档写着“VSCode是轻量级首选”。结果三小时后，我盯着Debu…

2026/5/25 17:34:51 阅读更多

从数据到模型：手把手教你预处理MPIIFaceGaze和EyeDiap数据集（Python实战）

从数据到模型：手把手教你预处理MPIIFaceGaze和EyeDiap数据集（Python实战）当你第一次打开MPIIFaceGaze或EyeDiap数据集的压缩包时，那种面对杂乱文件夹和神秘.mat文件的迷茫感，我太熟悉了。作为计算机视觉工程师&#xf…

2026/5/25 17:32:25 阅读更多

企业级飞书文档批量导出工具：95%效率提升的智能解决方案

企业级飞书文档批量导出工具：95%效率提升的智能解决方案【免费下载链接】feishu-doc-export 飞书文档导出服务项目地址: https://gitcode.com/gh_mirrors/fe/feishu-doc-export 在数字化转型浪潮中，企业文档迁移已成为组织效率提升的关键环节。…

2026/5/25 18:11:33 阅读更多

终极镜像烧录指南：如何用Balena Etcher安全制作启动盘

终极镜像烧录指南：如何用Balena Etcher安全制作启动盘【免费下载链接】etcher Flash OS images to SD cards & USB drives, safely and easily. 项目地址: https://gitcode.com/GitHub_Trending/et/etcher 想要快速制作系统启动盘却担心数据安全&#x…

2026/5/25 18:11:33 阅读更多

LeagueAkari：基于LCU API的英雄联盟客户端自动化架构解析

LeagueAkari：基于LCU API的英雄联盟客户端自动化架构解析【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit LeagueAkari是一款基于英…

2026/5/25 18:11:13 阅读更多

构建智能音乐档案：SoundCloud Downloader 的技术架构与实现哲学

构建智能音乐档案：SoundCloud Downloader 的技术架构与实现哲学【免费下载链接】scdl Soundcloud Music Downloader 项目地址: https://gitcode.com/gh_mirrors/sc/scdl 在流媒体音乐主导的时代，音乐爱好者面临着一种矛盾：我们享受着…

2026/5/25 18:10:12 阅读更多

ComfyUI视频处理终极指南：5个实战场景快速掌握VideoHelperSuite

ComfyUI视频处理终极指南：5个实战场景快速掌握VideoHelperSuite 【免费下载链接】ComfyUI-VideoHelperSuite Nodes related to video workflows 项目地址: https://gitcode.com/gh_mirrors/co/ComfyUI-VideoHelperSuite 你是否在ComfyUI中处理视频时感到束手…

2026/5/25 18:08:11 阅读更多

从GCC-PHAT到深度学习：聊聊时延估计在智能音箱和会议系统里的那些事儿

从GCC-PHAT到深度学习：时延估计技术如何重塑智能音频体验清晨被智能音箱的闹钟唤醒时，很少有人会思考为什么在房间任意位置说"停止"都能被准确识别；视频会议中与海外同事流畅交谈时，也很少有人注意到系统如何消除回声让…

2026/5/25 18:07:51 阅读更多

Go语言SQLite轻量级数据库应用

Go语言SQLite轻量级数据库应用引言 SQLite是一款轻量级的嵌入式数据库，无需独立服务进程，非常适合单机应用、移动端应用和开发测试环境。Go语言通过database/sql包配合go-sqlite3驱动可以方便地操作SQLite数据库。本文将深入探讨Go语言中SQLite的使用技…

2026/5/25 0:01:30 阅读更多

【前端无障碍】屏幕阅读器兼容性：确保视障用户的良好体验

【前端无障碍】屏幕阅读器兼容性：确保视障用户的良好体验前言大家好，我是cannonmonster01！今天咱们来聊聊屏幕阅读器兼容性这个话题。想象一下，一个视障用户打开你的网站，通过屏幕阅读器来浏览内容。如果你的网站没有…

2026/5/25 0:02:31 阅读更多

2026年横评10款降AI率软件:只选真正管用的那一款！

随着AI写作工具的广泛应用，论文写作和内容创作效率得到了显著提升，许多学生和职场人士都开始依赖这些工具来完成繁重的文字任务。然而，随着各大高校、期刊平台对AIGC内容检测技术的不断升级，AI生成内容的痕迹越来越容易被识别。不…

2026/5/25 0:04:13 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/25 1:05:07 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/25 1:05:13 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/25 1:05:14 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/25 15:34:05 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/25 15:07:25 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/25 11:05:00 阅读更多

相关文章