DisasterBench:面向复杂环境下无人机灾害响应的多模态基准测试 大家读完觉得有帮助记得关注和 点赞摘要​当灾害发生时应急响应人员不仅需要回答“发生了什么”还需要理解“为何发生”、“接下来会发生什么”以及“现在该做什么”。这些信息通常来源于嘈杂的低空无人机视角且受到严苛的现场算力限制。然而现有大多数多模态基准测试侧重于感知任务如识别/描述覆盖的灾害类型有限且难以支持实际应急响应所需的跨阶段推理。为此我们提出了 DisasterBench——一个面向复杂环境下无人机灾害响应的多阶段多模态推理基准。DisasterBench 涵盖 14 类灾害场景与 9 项响应关键任务贯穿灾前、灾中与灾后阶段并通过细粒度的灾害-任务映射显式测试因果归因、传播预测、损伤分析与决策导向型推理。为实现边缘侧推理我们进一步提出 DisasterVL这是一个轻量级多模态模型采用三阶段训练流程优化领域指令微调、思维链引导的多模态对齐以及基于强化学习的策略优化。在 21 个主流 MLLM 上的实验表明我们参数量仅为 2B 的 DisasterVL 优于所有开源模型并大幅缩小了与顶尖闭源模型的差距在保持卓越效率的同时实现了媲美 GPT-4o 的推理精度。项目主页https://github.com/TanmouTT/DisasterBench。关键词​ 多模态推理视觉-语言基准应急响应智能无人系统1. 引言灾害对人类生命与关键基础设施构成严重威胁要求在高度不确定的条件下进行快速可靠的应急响应。在实际场景中响应者不仅要识别可见损伤还需回答一系列相互关联的问题发生了什么、为何发生、接下来会如何发展、应采取何种行动。这些决策日益依赖于低空无人机UAV影像它能在复杂地形与危险环境中提供及时、近距离的观测[42]。然而此类观测本质上具有噪声、局部性和遮挡严重等特点[45]使得有效的灾害响应从根本上成为对多模态证据的结构化、多步推理问题而非孤立的感知任务。多模态大语言模型MLLMs通过跨模态融合与语义建模在灾害分析中展现出潜力[56, 23, 52]。同时低空无人机已成为可部署轻量模型的实用边缘感知平台[9, 25]。尽管有这些进展现有的灾害相关基准测试仍主要面向感知聚焦于识别或描述任务且仅覆盖有限的灾害类型。此外大多数基准将分析任务孤立看待忽视了推理需求在不同灾害阶段的演变限制了其反映复杂环境下应急响应的能力。我们认为复杂环境下的灾害响应应被构建为一个多模态推理问题。在实践中灾害分析贯穿于相互关联的多个阶段灾前风险评估、灾中态势理解与灾后评估决策每个阶段都对推理施加了不同的约束。灾害的类型与阶段共同决定了可用的视觉证据与任务优先级要求灾害条件与分析目标之间实现显式对齐[54]。若不对此耦合关系进行建模评估将面临忽略真实应急场景中核心推理风险的危险。图 1​ DisasterBench 示例展示面向低空无人机视角的推理导向型视觉问答VQA涵盖灾前、灾中、灾后阶段。仅展示问题、选项、简要线索与最终答案。低空无人机视角进一步放大了这些挑战因为它引入了与卫星[42, 30, 53]或高空影像截然不同的观测环境。虽然俯视视角能提供宏观空间格局但无人机影像捕捉的是局部且细粒度的细节并频繁受到遮挡和部分可观测性的影响[58]。不稳定地形、阻断的基础设施或级联灾害的早期迹象等关键线索可能无法直接看见必须通过基于领域知识和物理约束的上下文推理来推断[21]。这些特性使得低空无人机影像成为评估多模态灾害推理的现实且极具挑战性的模态。除了感知不确定性真实的灾害场景还施加了严格的计算约束。应急行动通常在连接有限、供电受限且具有实时要求的条件下进行使得依赖大型云端模型变得不切实际。因此灾害推理系统必须运行在部署于边缘侧的轻量级多模态模型上。然而许多现有方法依赖于零样本或提示词推理[56, 11, 12]或资源密集型流水线[48, 20, 40]这与上述约束不相容。可靠的灾害推理因此需要能在小模型预算内增强推理鲁棒性与泛化能力的训练范式。为应对这些挑战我们推出了 DisasterBench一个面向复杂环境下无人机灾害响应的多阶段多模态推理基准。DisasterBench 基于 5,330 张真实世界低空无人机图像构建包含 29,300 个推理导向的样本覆盖 14 类灾害相关场景与 9 项响应关键任务贯穿灾前、灾中、灾后阶段。为使此类推理能力具备实用性我们进一步提出了 DisasterVL它通过一个轻量级模型优化流程进行训练该流程融合了领域特定的指令微调、思维链引导的多模态对齐以及基于强化学习的策略优化。DisasterBench 与所提框架共同实现了在现实观测与计算约束下对多模态灾害推理的系统评估与有效学习。总之我们的主要贡献如下我们提出了 DisasterBench一个面向复杂环境下无人机灾害响应的多阶段多模态推理基准涵盖了多样化的灾害类型、响应关键任务以及所有灾前/灾中/灾后阶段。我们提出了 DisasterVL​ 及其针对轻量级多模态模型的优化方案结合了领域知识注入、CoT 引导的多模态对齐和强化学习以提升有限算力下的推理鲁棒性。我们对 21 个主流多模态模型闭源与开源进行了基准测试结果表明我们训练的、仅有 2B 参数的 DisasterVL 在 DisasterBench 上取得了强劲且均衡的性能大幅缩小了与顶尖闭源模型的差距。数据集视角灾害数阶段规模 (图像/样本)推理目标RSCC [8]卫星6灾后124,702 / 62,351变化导向的描述MONITRS [38]卫星10灾后– / 54,504变化导向的监测DisasterM3 [48]卫星10灾后26,988 / 123,010变化导向的感知DisasterEye [17]无人机8灾中2,751 / 2,751灾害分类AIDER [22]无人机5灾中6,923 / 6,923灾害分类FloodNet [36]无人机1灾后3,200 / 11,000损伤感知RescueNet [35]无人机1灾后4,494 / 4,494损伤分割DisasterBench (Ours)​无人机​14​多阶段​5,330 / 29,300​因果与决策导向推理​表 1​ DisasterBench 与代表性多模态空基灾害相关数据集的对比。2. 相关工作早期的多模态基准测试主要关注单一任务如图像字幕[26, 34]、视觉定位[18]、视觉问答[31, 33, 39]和光学字符识别[44]主要评估感知和基础语义理解。随着大规模视觉-语言模型的快速发展近期的基准测试已向更复杂多样的评估演进。这些基准大致可分为两类一类是针对特定推理能力的领域专用基准如科学或数学推理[57, 29]、图表理解[14, 32]或幻觉检测[27]另一类是强调广泛任务和模态覆盖的通用基准如 MME[13]、MMBench[28]、MMVet[55]、MMStar[5]、LLaVABench[27]、VisIT-Bench[4] 和 TouchStone[3]。总体而言这些基准将评估范围从早期的以感知为中心的任务扩展到了更多样的多模态理解和推理并被广泛用于比较通用 MLLMs[27, 24, 15]。近年来针对灾害分析与响应的多模态数据集引起了越来越多的关注。DisasterEye[17] 融合了无人机影像与第一人称视角以提高在灾害与非灾害场景间的鲁棒性。FloodNet[36] 提供了灾后影像包含分类、分割和 VQA 任务而 DisasterQA[37] 则通过多项选择题评估灾害相关知识。除视觉中心的数据集外DisastIR[54] 和 WXIMPACTBENCH[56] 分别侧重于基于文本的影响分析和检索导向的任务突显了灾害理解的互补方向。在视觉方面FireSentry[59] 利用多传感器视频和遥测数据进行野火监测与时空预测AIFloodSense[43] 则致力于从航空影像中进行洪水场景理解。遥感基准如 RSCC[8] 和 MONITRS[38] 结合了带有时序的卫星影像与语言标注以研究变化描述和灾害演变而 DisasterM3[48] 进一步探索了多任务指令微调与多模态遥感数据。表 1 系统比较了现有灾害相关基准与我们提出的数据集。尽管这些努力推进了多模态感知、时空建模和任务多样性但大多数数据集强调特定的灾害阶段通常是灾前/灾后、有限的灾害覆盖范围或感知导向的目标且很少强制灾害条件与任务需求之间的显式耦合。相比之下我们的基准旨在评估来自低空无人机视角的多阶段、具备阶段感知的任务推理显式建模灾害演变、任务依赖关系和现实应急响应约束下的决策导向推理。3. DisasterBench在本节中我们将介绍 DisasterBench这是一个面向复杂环境下无人机灾害响应的多模态推理基准。其涵盖的多灾害类型、综合任务及基准构建流程如图 2 所示。与主要评估感知层面能力的现有基准不同DisasterBench 针对真实应急场景中所需的高级推理包括整个灾害生命周期内的因果分析、危害演变理解和决策导向评估。该基准涵盖 14 类灾害相关场景定义了 9 项响应关键任务覆盖灾前、灾中和灾后阶段并包含一个用于多阶段灾害推理的整体任务。DisasterBench 基于 5,330 张真实世界的低空无人机图像构建包含 29,300 个采用统一多项选择题 VQA 格式的推理导向样本。每张图像都标注了单一的灾害标签同时支持基于灾害类型及其当前阶段的多个任务查询从而实现对多模态灾害推理的结构化、阶段感知评估。图 2​ DisasterBench 概览。(a) 来自低空无人机视角的灾害相关场景类别。(b) 涵盖灾前、灾中、灾后阶段的综合任务分类法以及整体灾害链总结任务。(c) 基准构建流程包括数据采集、任务条件样本生成、跨模型验证和专家评审。3.1 基准构成灾害类别​如图 2(a) 所示DisasterBench 包含 14 个灾害相关的无人机场景类别捕捉与应急响应相关的危险过程、损伤状态和地球物理现象火灾、滑坡、洪水、火山碎屑流、泥石流、雪崩、裂缝、沉降、熔岩流、落石、冰塞洪水、火山泥流、飓风和爆炸。此设计并未将类别局限于严格定义的灾害分类法而是反映了低空无人机在灾害作业期间遇到的多样化场景条件[19, 47]。这些类别表现出不同的视觉特征和潜在的物理或结构机制能够评估特定类别的推理能力和跨类别的泛化能力。为支持灾前推理和鲁棒性我们还额外包含了一个非灾害场景的“正常”类别。每种灾害类型对应的低空无人机图像数量如图 3(a) 所示。图 3​ DisasterBench 中的样本分布。综合任务​如图 2(b) 所示我们定义了九项任务以捕捉整个生命周期内真实世界灾害响应的关键推理需求[46]。在灾前阶段模型执行风险评估与评价RAE。在灾中阶段我们评估态势理解与分类SUC、级联风险推理CRR、传播路径推断PPI和倒塌建筑分析CBA。在灾后阶段任务涵盖损失与态势评估LSA、触发机制识别TMI和应急资源分配ERA。最后一个整体性任务——灾害链总结DCS——要求模型将观测整合为具有显式因果关系的结构化叙述。这些任务共同评估了超越孤立感知技能的、具备阶段感知的灾害推理能力。不同任务的样本分布如图 3(b) 所示。3.2 基准构建DisasterBench 通过四阶段流程图 2(c)构建以确保真实性、一致性和高标注保真度。首先我们从多样的真实世界来源收集低空无人机影像包括公开灾害报告、新闻媒体素材和开放式视频分享平台。随后我们进行清洗、去重和人工类别标注以获得可靠的灾害相关场景集。其次我们使用与每项推理任务对齐的精心设计提示词生成任务条件的多项选择题。由于单一场景可能支持多个响应目标我们构建了结构化的灾害-任务对并相应生成查询。每个生成的问题都使用多个强视觉-语言模型如 GPT-5, Gemini-2.5-Pro进行跨模型验证仅保留模型间答案一致的样本这减少了标注噪声同时保留了针对罕见或复杂灾害场景的挑战性样本。图 4​ DisasterBench 的代表性图像展示了多样化的灾害场景和相关任务。第三我们实施跨模型验证程序多个强视觉-语言模型独立回答每个问题我们仅保留答案在模型间一致的样本以减少歧义和标注噪声。被标记或存在冲突的项目将由专家进一步审核任何无法解决的情况将被丢弃确保高标注者间一致性和数据集完整性。最后我们进行 AI 辅助的质量检查随后由两名具备灾害响应背景的全职标注员进行专家人工验证。在大约三个月的时间里这些专家审查了所有收集的图像标记模糊或低质量的样本进行修订或移除导致约 17% 的生成项目被修订或丢弃。此过程还额外监控了所有灾害类别包括罕见和尾部类别事件的代表性确保基准提供全面的覆盖并支持鲁棒的泛化。通过这一过程我们精选了约 5,330 张真实世界的低空无人机图像并构建了 29,300 个高质量的推理样本。为进一步洞察数据集图 4 展示了代表性的类别-任务对。3.3 评估协议DisasterBench 中的所有样本均遵循统一的多项选择题 VQA 格式以支持可扩展和可复现的评估。对于每个查询模型需要选择一个选项可选地附带中间推理性能通过最终答案的精确匹配准确率来衡量。我们将数据集划分为 24,357 个训练样本、1,943 个验证样本和 3,000 个测试样本。评估结果既按任务报告以分析不同推理类型和灾害阶段的优势与劣势也报告总体结果以衡量不同条件下的整体灾害响应能力。所有评估均遵循统一的多项选择题 VQA 格式使用最终答案的精确匹配准确率作为指标。数据集被划分为训练集、验证集和测试集以确保可复现性和一致性并强制执行结构化的thinking→answering标签以保持跨任务的推理可追溯性。4. DisasterVL在本节中我们介绍用于灾害推理的模型 DisasterVL。低空无人机应急响应要求多模态模型在严苛的现场算力限制下基于嘈杂且局部的视觉观测进行可靠的多步推理。在实践中直接在灾害问答数据上微调小型视觉-语言模型往往效果不佳模型缺乏足够的领域基础遭受不稳定的视觉-语言对齐困扰且在复杂推理任务上表现出不一致的决策行为。受这些挑战启发我们提出通过一个三阶段渐进式训练框架来优化 DisasterVL以实现轻量级多模态灾害推理(i) 领域知识注入(ii) 结构化推理的多模态对齐以及 (iii) 基于策略的精炼。该框架逐步构建领域感知的语义将其与贯穿灾前、灾中、灾后阶段的低空无人机影像进行具身化并通过显式推理结构进行接地进而精炼决策行为以改善有限计算预算下的多步灾害推理。4.1 阶段 I领域知识注入通用视觉-语言模型缺乏灾害分析所需的专业知识与技术术语。因此我们通过整合地质调查报告、历史灾害记录、学术文献和国家技术标准构建了一个领域特定的文本语料库。经过清洗和去重后我们得到了 15,294 个文本指令-响应对。此阶段旨在注入涵盖基础概念和实践灾害响应原则的广泛领域知识为后续的多模态学习提供语义基础。形式上令 Dstage 1​{(xi​,yi​)}i1N​表示数据集其中 xi​是领域指令yi​是对应的专家响应。训练最小化标准的负对数似然优化此目标使模型能够在统一的语义空间中内化领域概念、术语和推理模式。4.2 阶段 II多模态对齐在阶段 I 建立了领域感知语义的基础上阶段 II 将这些语义与低空无人机视觉证据进行对齐。我们从 DisasterBench 的训练集中构建一个图文指令集 Dstage 2​其中每个样本将一张无人机图像与一个任务条件指令和一个专家响应配对。在训练期间我们冻结视觉编码器 fvis​(⋅)并进行视觉指令微调。给定输入图像 I我们提取视觉特征 vfvis​(I)并优化其中 x是任务相关指令y是对应的专家响应且只更新语言模型。为鼓励显式且一致的推理我们采用思维链Chain-of-Thought格式将中间推理与最终预测分离这里ythink​被包裹在thinking标签中yans​被包裹在answering标签中。这种结构化接口提高了格式稳定性并为精炼阶段提供了清晰的目标。4.3 阶段 III基于策略的精炼尽管进行了结构化的多模态对齐在复杂的灾害场景中仍可能存在残留的推理错误。作为一个轻量级的精炼步骤我们应用分组相对策略优化Group Relative Policy Optimization, GRPO[41]以在不引入辅助价值网络的情况下提高推理一致性。对于每个查询模型采样一小组成候选输出并基于组内相对性能更新策略同时使用 KL 散度正则化约束到一个固定的参考策略。训练数据遵循多项选择题格式每个输出由一个thinking片段后跟一个单选项的answering片段组成。奖励结合了严格的格式约束和答案正确性此阶段作为一个轻量级精炼步骤在保持训练稳定性和计算效率的同时提高了推理连贯性。它减少了早期阶段的错误传播并增强了多步决策的一致性。5. 实验5.1 实验设置基线模型​我们评估了八个闭源 MLLMGPT-4o, GPT-4o mini[16], GPT-5, Gemini-2.5-Pro, Gemini-2.0-Flash, Gemini-2.5-Flash[10], Claude-Sonnet-4.5, 和 Grok-4其中 GPT-4o mini 和 Gemini Flash 模型作为其旗舰版本的效率导向对应物。我们进一步纳入了十三个开源 MLLM1B–8B重点关注轻量级模型Qwen2-VL-2B-Instruct[49], Qwen2.5-VL (3B, 7B)[2], Janus-Pro-1B[6], InternVL2 (2B, 4B, 8B)[7], InternVL-3.5 (1B, 2B, 8B)[50], DeepSeek-VL2 (Tiny, Small)[51], 和 Phi-Vision (Phi-3-Vision 4.15B)[1]。更多模型配置细节见补充材料。实现与评估​我们采用 Qwen2-VL-2B-Instruct 作为 DisasterVL 的基础模型。在所有三个训练阶段中视觉编码器保持冻结仅更新语言模型。在阶段 I基础模型在领域特定文本语料库上使用低秩自适应LoRA进行微调秩 32α64训练 3 个 epoch使用 Adam 优化器学习率 1×10−4和余弦调度器在 4 张 NVIDIA L40S GPU 上训练全局批量大小 32。阶段 II 继续使用 LoRA 微调图像-文本指令集设置相同仅 LoRA dropout 设为 0.05。阶段 III 应用分组相对策略优化GRPO训练 40 步使用 AdamW 优化器学习率 1×10−6权重衰减 1×10−2rollout 批量大小为 1024全局批量大小为 256每个查询采样 4 个候选响应并应用 KL 正则化和准确率奖励λ1.5。在评估时模型可以输出单个选项字母或推理后跟最终选项。我们使用严格的精确匹配解析只有当提取的最终输出是所需格式中的单个有效选项字母时预测才被视为正确。表 2​ 闭源和开源视觉-语言模型在 DisasterBench 测试集和验证集上的性能。我们报告了任务级准确率和总体准确率。#Tokens表示每个样本生成的平均 token 数反映了推理效率。模型RAETMISUCPPICBALSACRRERADCS总体 (测试集)总体 (验证集)#Token闭源模型​GPT-4o mini27.19%64.86%81.76%63.39%55.03%55.27%62.44%83.19%73.19%64.00%67.27%423GPT-4o40.35%76.81%86.32%58.33%53.85%76.37%71.95%83.19%79.85%73.00%73.19%335GPT-566.67%84.06%92.51%78.57%74.56%87.06%80.09%97.48%90.11%84.83%83.69%644Gemini-2.5-pro58.77%84.06%94.14%76.49%70.41%87.06%80.32%93.28%90.49%84.17%87.70%1323Gemini-2.0-flash47.37%76.45%89.90%75.89%65.68%71.17%81.45%88.24%92.40%78.80%81.68%435Gemini-2.5-flash55.26%83.33%92.83%63.10%69.82%77.64%71.04%91.60%87.07%78.03%82.96%1321Claude-Sonnet-4-552.63%80.07%91.86%68.45%71.01%82.28%76.02%93.28%86.12%79.93%86.26%457Grok-453.51%76.09%89.58%76.19%62.72%81.15%69.68%89.92%82.51%77.80%77.87%733开源模型​Qwen2-VL-2B13.16%42.75%69.06%52.98%24.26%22.78%44.57%69.75%58.94%43.87%49.92%352Qwen2.5-VL-3B47.37%55.43%75.57%62.20%34.32%42.33%63.80%89.08%75.67%59.77%65.31%428Qwen2.5-VL-7B56.14%67.03%85.02%72.32%40.83%63.29%70.14%92.44%86.69%71.60%74.94%425Janus-Pro-1B14.91%43.84%76.55%53.57%28.99%57.52%34.62%60.50%61.41%51.97%55.12%354InternVL2-2B9.65%52.17%77.52%46.43%29.59%33.33%50.68%76.47%63.12%49.43%54.09%425InternVL2-8B61.40%63.77%81.43%65.18%42.60%53.87%72.40%92.44%84.98%68.23%71.38%255InternVL-3-5-1B12.28%33.70%80.13%38.99%40.83%49.65%31.22%48.74%50.57%45.60%55.79%380InternVL-3-5-2B30.70%45.29%82.08%50.89%41.42%60.76%46.83%67.23%73.76%58.67%66.13%355InternVL-3-5-4B51.75%55.80%82.08%57.14%59.76%72.86%54.30%85.71%78.14%67.63%72.41%459InternVL-3-5-8B43.86%54.35%83.71%61.31%55.62%68.64%51.36%88.24%78.90%66.40%72.31%322Deepseek-VL2-T13.16%38.41%78.50%40.18%36.69%54.85%39.37%46.22%39.73%46.23%52.91%190Deepseek-VL2-S31.58%54.71%92.51%61.31%53.25%64.56%61.54%88.24%79.47%67.37%70.97%359Phi-3-Vision(4.15B)31.58%59.42%83.71%74.70%31.95%44.59%67.19%84.03%83.84%63.90%66.80%272DisasterVL (Ours-2B)​50.88%​57.97%​91.86%​80.95%​51.48%​70.04%​59.05%​85.71%​87.07%​72.60%​81.57%​168​5.2 性能比较表 2 展示了 DisasterVL 以及广泛的先进闭源和开源视觉-语言模型在 DisasterBench 上的全面评估。在测试集上DisasterVL 取得了 72.60% 的总体准确率是轻量级开源模型中性能最强的。特别是它大幅优于同规模的基线模型总体准确率超过 Qwen2-VL-2B (43.87%) 28.73 个百分点超过 InternVL2-2B (49.43%) 23.17 个百分点。尽管尺寸紧凑DisasterVL 的参数效率也很高超越了更大的开源模型如 Qwen2.5-VL-7B (71.60%) 和 InternVL2-8B (68.23%)以及高效的闭源模型 GPT-4o mini (64.00%)。除了总体准确率DisasterVL 在各项任务上均表现出均衡且鲁棒的性能特别是在需要多步推理和因果理解的推理密集型类别上。值得注意的是它在传播路径推断 (80.95%)、态势理解与分类 (91.86%) 和灾害链总结 (87.07%) 上取得了强劲的结果证明了其在建模危害演变、上下文解释和基于低空无人机影像的整体灾害推理方面的有效性。这些趋势在验证集上也保持一致DisasterVL 达到了 81.57% 的总体准确率再次优于同规模的骨干模型同时保持了与更大模型相当的竞争力。除了准确率DisasterVL 还具有 token 效率平均仅生成 168 个 token显著少于大多数闭源模型如 GPT-4o mini 423; Gemini-2.5-Pro 1323和强劲的开源模型如 Qwen2.5-VL-7B 425。这种效率直接支持了现实应急响应场景中常见的现场和边缘计算约束下的实际部署。验证集和测试集性能之间的紧密对齐进一步表明观察到的增益并非源于过拟合而是源于我们三阶段训练框架所增强的多模态推理和决策一致性。定性结果可在补充材料中找到。为进一步研究阶段 III 基于策略的精炼的影响我们评估了准确率加权系数 λ的邻近值。观察到不同 λ值下的总体测试准确率为λ2 时为 69.93%λ1.5 时为 72.60%λ1 时为 70.47%λ0.5 时为 70.73%表明 λ1.5 在奖励缩放和模型性能之间提供了最佳权衡。模型在每个阶段的结果见补充材料。表 3​ 不同训练阶段在各灾害类别上的准确率。阶段火山泥流爆炸落石冰塞洪水裂缝泥石流雪崩熔岩流火山碎屑流沉降滑坡飓风火灾洪水总体阶段173.97%80.57%70.75%60.52%51.95%59.82%50.00%54.20%69.23%65.15%64.64%50.63%49.00%70.00%59.67%阶段280.82%84.00%77.55%62.66%51.95%69.64%59.18%63.36%70.38%62.12%65.36%55.70%60.45%62.14%64.13%阶段3 (Ours)87.67%89.14%81.63%70.82%57.14%80.36%69.39%70.99%80.38%75.76%71.79%62.34%67.66%76.79%72.60%5.3 方法分析分阶段性能​表 3 展示了 DisasterVL 在不同训练阶段对各灾害类别的测试集准确率。阶段 1领域知识注入提供了一个强基线特别是在知识密集型类别上阶段 2带结构化推理的多模态对齐持续提升了感知驱动的类别如泥石流和雪崩。完整的三阶段流程阶段3在几乎所有灾害类型上都取得了最高准确率展示了互补效应阶段 3基于策略的精炼特别增强了多步推理任务。总体而言渐进式课程稳定了稀有和常见类别的性能总体测试准确率达到 72.6%证实分阶段训练有效地结合了领域基础、视觉推理和决策精炼。表 4​ 不同训练阶段的影响。阶段 I阶段 II阶段 III验证集准确率测试集准确率43.87%49.92%✓69.38%59.67%✓72.26%66.43%✓69.48%61.53%✓✓72.98%64.13%✓✓76.38%67.07%✓✓75.81%68.03%✓✓✓81.57%​72.60%​组件消融​表 4 显示每个阶段都有实质贡献且三个阶段互为补充。未经专门训练的基础模型表现不佳测试集 49.92%。应用单一阶段能提高准确率但仍不足阶段 I 达到测试集 59.67%阶段 II 达到 66.43%阶段 III 达到 61.53%。结合两个阶段带来进一步提升测试集 64.13%–68.03%表明语义基础、视觉对齐和决策精炼解决了不同的失效模式。完整流程取得了最佳结果达到 81.57% 验证准确率和 72.60% 测试准确率证实轻量级模型中的鲁棒灾害推理受益于所有三个阶段。表 5​ 三个阶段与全量监督微调Full-SFT的比较。任务阶段1阶段2阶段3 (Ours)全量 SFTRAE34.21%35.96%50.88%​48.25%TMI56.88%53.26%57.97%​52.90%SUC88.60%87.62%91.86%​88.60%PPI59.52%66.67%80.95%​76.79%CBA38.18%40.83%51.48%​49.70%LSA43.60%60.06%70.04%​67.93%CRR53.85%49.10%59.05%​52.26%ERA83.19%82.35%85.71%​84.87%DCS80.61%82.13%87.07%​86.12%总体​59.67%​64.13%​72.60%​69.43%​阶段与全量训练比较​表 5 比较了 DisasterVL 在三阶段训练下的性能与单阶段全量 SFT 基线。阶段 I 建立了合理的基础阶段 II 改善了依赖感知的任务。纳入阶段 III 持续提升了几乎所有任务的准确率尤其是在多步推理任务上。与全量 SFT 相比完整的三阶段流程实现了更高的总体准确率72.60% vs. 69.43%表明渐进式课程比直接的端到端 SFT 提供了更稳定有效的灾害推理。训练顺序的影响​表 6 报告了三个阶段不同训练顺序的影响。虽然大多数排列顺序比单阶段训练有适度提升测试准确率 65.10%–69.13%但没有一种能达到所提流程的性能。特别是在领域知识注入阶段 I之前应用阶段 II 或阶段 III持续导致次优结果这表明多模态对齐和策略精炼需要一个强大的语义基础。规范顺序 阶段 I → 阶段 II → 阶段 III 取得了最高性能验证集 81.57%测试集 72.60%证实逐步注入领域知识、将其具身于视觉推理并最终精炼决策策略对于有效的轻量级灾害推理至关重要。表 6​ 三个阶段顺序的影响。训练顺序验证集准确率测试集准确率阶段 I → 阶段 III → 阶段 II79.52%68.73%阶段 II → 阶段 I → 阶段 III66.23%65.10%阶段 II → 阶段 III → 阶段 I76.84%68.03%阶段 III → 阶段 I → 阶段 II79.72%67.70%阶段 III → 阶段 II → 阶段 I78.13%69.13%阶段 I → 阶段 II → 阶段 III​81.57%​72.60%​骨干网络泛化性​表 7 评估了我们的训练流程是否能泛化到不同的轻量级骨干网络。应用我们的方法在验证集和测试集上均带来了一致的巨大提升例如Qwen2-VL-2B 在测试集上从 43.87% 提升至 72.60%InternVL-3.5-1B 从 45.60% 提升至 68.03%。在更强的骨干网络上观察到了类似的提升如 Qwen2.5-VL-3B (59.77% → 72.80%) 和 InternVL-3.5-2B (58.67% → 72.07%)并且显著地也能扩展到更大的模型如 Qwen2.5-VL-7B (71.60% → 79.80%)。除了准确率我们的模型也更 token 高效在 Qwen2-VL-2B 上将平均生成 token 数从 352 减少到 168在其他骨干网络上也有一致的减少。这些结果表明我们的三阶段框架提供了鲁棒的、可迁移的改进而非依赖于特定的架构。表 7​ 使用不同骨干网络的总体验证准确率。上半部分报告基础骨干网络下半部分报告使用我们流程训练的对应模型。骨干网络验证集准确率测试集准确率#TokenQwen2-VL-2B49.92%43.87%352 Ours81.57%72.60%168Qwen2.5-VL-3B65.31%59.77%428 Ours79.67%72.80%202Qwen2.5-VL-7B74.94%71.60%425 Ours86.67%79.80%232InternVL-3.5-1B55.79%45.60%380 Ours76.12%68.03%205InternVL-3.5-2B66.13%58.67%355 Ours80.55%72.07%224图 5​ DisasterBench 图像上的开放式推理示例红色高亮的词语是从无人机影像中提取的核心视觉线索作为多模态推理的逻辑基础。视觉信息的重要性​为严格评估 DisasterBench 对视觉推理的依赖性我们进行了仅文本的消融实验其中模型仅被提供问题和答案选项。移除视觉输入导致性能大幅下降例如总体准确率从 72.6% 降至 57.9%证明视觉证据对于准确的灾害相关推理至关重要。代表性的推理实例如图 5 所示突出了模型如何将来自低空无人机影像的空间模式、结构线索和特征分布与任务条件问题相结合以生成连贯的推理和最终答案。例如模型分析坡度特征和表面模式以推断滑坡的潜在原因并追踪碎屑的连通性和堆积以预测下游的级联效应。这些例子强调多步灾害推断在很大程度上依赖于解释视觉信息并系统地将观测与结果联系起来强调了在多阶段推理任务中保持丰富视觉上下文对于有效决策的重要性。6. 结论我们提出了 DisasterBench一个面向复杂环境下无人机灾害响应的多阶段多模态推理基准。DisasterBench 覆盖了多样化的灾害类型和贯穿灾前、灾中、灾后阶段的响应关键任务显式评估超越感知的推理能力包括因果分析、危害演变、损伤理解和决策导向评估。它基于经专家验证的真实世界无人机影像构建为研究应急环境中的阶段感知多模态推理提供了一个现实的试验台。为支持在现场计算约束下的部署我们进一步提出了 DisasterVL这是一个采用三阶段框架训练的轻量级多模态模型结合了领域知识注入、思维链引导的多模态对齐和基于策略的精炼。对 21 个闭源和开源 MLLM 的实验表明DisasterVL 在轻量级模型中取得了强劲且均衡的性能同时保持了 token 效率。