noteVideo-MME-v1基准内置12种独立任务题型覆盖基础视觉→时序动态→高阶综合推理全维度时序行为、运动模式、多目标跨帧追踪、时序先后推理、事件因果推导、长视频摘要、跨模态信息融合、多语言视频理解、细节定位、空间关系推理、抽象剧情理解、多线索综合问答Video-MME-v2想推动的是一次评测理念上的转变真正需要比较的是谁能够在连续、动态、多模态的信息中像人一样真正理解正在发生的事情文章目录note一、Video-MME1、Video-MME介绍2、Video MME 12类任务体系3、Video MME关键实验结果二、Video-MME-v21、benchmark介绍2、数据统计3、thinking的收益Reference一、Video-MME1、Video-MME介绍论文Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis项目主页榜单、数据集、任务说明https://video-mme.github.io/home_page.htmlGitHub评测代码仓库https://github.com/BradyFU/Video-MMEarXiv论文https://arxiv.org/pdf/2604.05015二、核心优化点研究痛点过往多模态评测基准仅聚焦静态图像缺少覆盖长短时序、音视文多模态融合的标准化视频评测集无法统一衡量时序记忆、跨帧推理、多线索联合理解能力。四大核心设计◦ 场景全覆盖6大主领域知识科普、影视、体育、舞台艺术、日常记录、多语言30个细分子场景◦ 完整时序跨度视频时长11秒1小时分短/中/长视频专门测试长上下文记忆◦ 多模态输入范式支持纯画面、画面字幕、画面音频三种评测模式量化音/文本对视频理解的增益◦ 高质量人工标注900段视频总254小时、2700道选择题全程人工校验无机器生成脏数据。核心创新构建12类分层视频理解评测任务体系从底层视觉感知到高层综合推理全覆盖形成完整能力分层评测标准。2、Video MME 12类任务体系基准内置12种独立任务题型覆盖基础视觉→时序动态→高阶综合推理全维度画面物体识别识别画面内物体、属性、场景基础视觉感知动作识别区分人物/物体动态行为、运动模式多目标跨帧追踪持续定位多物体在不同时间戳的位置变化时序先后推理判断事件、动作发生的时间先后顺序事件因果推导基于时序上下文分析事件发生的因果逻辑长视频摘要提取数十分钟长视频核心主线、关键情节跨模态信息融合联合画面、字幕、音频信息完成统一推理多语言视频理解适配带多语种字幕/语音的跨语言视频问答细节定位精准定位特定物体、台词、动作出现的时间片段空间关系推理判断物体间远近、方位、遮挡等空间约束抽象剧情理解解读隐喻、人物情绪、剧情伏笔、叙事逻辑多线索综合问答融合时序、空间、音文多条线索做多跳推理3、Video MME关键实验结果Video MME关键实验结果2025年版闭源模型性能Gemini 1.5 Pro平均精度75%高于GPT-4o71.9%为初代榜单最优时序衰减规律所有模型准确率随视频时长拉长持续下降开源模型长时序短板显著大于闭源模态增益结论叠加字幕/音频输入后模型整体准确率提升8%~15%单帧视觉不足以支撑复杂推理任务分层差距12类任务性能分化明显抽象剧情、长视频摘要、多线索综合问答是所有模型普遍弱项。二、Video-MME-v2链接https://arxiv.org/pdf/2604.050151、benchmark介绍考虑三个维度1、信息检索和聚合2、时序理解3、复杂推理评测方法1、能力一致性考察多个角度提问确保模型是真的会2、推理连贯非线性评分机制如零散答对几题不能拿高分、首错阶段机制传统单选题目benchmark高估模型效果目前效果gemini 3 pro领先seed2.0 pro紧随其后但是和human差别仍然很大非常直观的评测结果显示截止20260704人类专家的非线性得分为90.7传统ACC为94.9而当前最强的商业模型Gemini-3-Pro得分仅为49.4开源模型Qwen最好的结果为39.1。在更严格的评测框架下模型与人类之间仍然存在显著差距。2、数据统计数据长度分布统计3、thinking的收益thinking的收益不是无条件成立的它高度依赖文本线索。论文实验显示开启 Thinking 后模型在有字幕/音频的设定下通常比在纯视觉设定下获得更明显的提升。 例如Qwen3.5-122B-A10B-Think64 frames 在无字幕和有字幕设置下分别带来 3.8/5.8 的提升。这说明显式文本语义仍然是很多模型完成多步推理时非常重要的锚点。但另一方面Thinking 也可能带来退化。Qwen3-VL-8B 在无字幕设定下出现了 -0.6 的下降而 KimiVL-16B 在整体上出现了 -3.3/-3. 的性能回落在更强调复杂推理的 Level 3 上退化甚至达到 -4.0/-3.9。总结当前很多模型的推理增强本质上仍然更擅长利用语言线索而不是稳定地从纯视觉、纯音频中抽取支撑推理的证据。一旦文本锚点不足Thinking 不但未必增益反而可能引入更多噪声。Reference[1] Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis[2] Video-MME-v2: Towards the Next Stage in Benchmarksfor Comprehensive Video Understanding
【VLM】视频理解benchmark:Video-MME v1和v2
发布时间:2026/7/5 15:01:14
noteVideo-MME-v1基准内置12种独立任务题型覆盖基础视觉→时序动态→高阶综合推理全维度时序行为、运动模式、多目标跨帧追踪、时序先后推理、事件因果推导、长视频摘要、跨模态信息融合、多语言视频理解、细节定位、空间关系推理、抽象剧情理解、多线索综合问答Video-MME-v2想推动的是一次评测理念上的转变真正需要比较的是谁能够在连续、动态、多模态的信息中像人一样真正理解正在发生的事情文章目录note一、Video-MME1、Video-MME介绍2、Video MME 12类任务体系3、Video MME关键实验结果二、Video-MME-v21、benchmark介绍2、数据统计3、thinking的收益Reference一、Video-MME1、Video-MME介绍论文Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis项目主页榜单、数据集、任务说明https://video-mme.github.io/home_page.htmlGitHub评测代码仓库https://github.com/BradyFU/Video-MMEarXiv论文https://arxiv.org/pdf/2604.05015二、核心优化点研究痛点过往多模态评测基准仅聚焦静态图像缺少覆盖长短时序、音视文多模态融合的标准化视频评测集无法统一衡量时序记忆、跨帧推理、多线索联合理解能力。四大核心设计◦ 场景全覆盖6大主领域知识科普、影视、体育、舞台艺术、日常记录、多语言30个细分子场景◦ 完整时序跨度视频时长11秒1小时分短/中/长视频专门测试长上下文记忆◦ 多模态输入范式支持纯画面、画面字幕、画面音频三种评测模式量化音/文本对视频理解的增益◦ 高质量人工标注900段视频总254小时、2700道选择题全程人工校验无机器生成脏数据。核心创新构建12类分层视频理解评测任务体系从底层视觉感知到高层综合推理全覆盖形成完整能力分层评测标准。2、Video MME 12类任务体系基准内置12种独立任务题型覆盖基础视觉→时序动态→高阶综合推理全维度画面物体识别识别画面内物体、属性、场景基础视觉感知动作识别区分人物/物体动态行为、运动模式多目标跨帧追踪持续定位多物体在不同时间戳的位置变化时序先后推理判断事件、动作发生的时间先后顺序事件因果推导基于时序上下文分析事件发生的因果逻辑长视频摘要提取数十分钟长视频核心主线、关键情节跨模态信息融合联合画面、字幕、音频信息完成统一推理多语言视频理解适配带多语种字幕/语音的跨语言视频问答细节定位精准定位特定物体、台词、动作出现的时间片段空间关系推理判断物体间远近、方位、遮挡等空间约束抽象剧情理解解读隐喻、人物情绪、剧情伏笔、叙事逻辑多线索综合问答融合时序、空间、音文多条线索做多跳推理3、Video MME关键实验结果Video MME关键实验结果2025年版闭源模型性能Gemini 1.5 Pro平均精度75%高于GPT-4o71.9%为初代榜单最优时序衰减规律所有模型准确率随视频时长拉长持续下降开源模型长时序短板显著大于闭源模态增益结论叠加字幕/音频输入后模型整体准确率提升8%~15%单帧视觉不足以支撑复杂推理任务分层差距12类任务性能分化明显抽象剧情、长视频摘要、多线索综合问答是所有模型普遍弱项。二、Video-MME-v2链接https://arxiv.org/pdf/2604.050151、benchmark介绍考虑三个维度1、信息检索和聚合2、时序理解3、复杂推理评测方法1、能力一致性考察多个角度提问确保模型是真的会2、推理连贯非线性评分机制如零散答对几题不能拿高分、首错阶段机制传统单选题目benchmark高估模型效果目前效果gemini 3 pro领先seed2.0 pro紧随其后但是和human差别仍然很大非常直观的评测结果显示截止20260704人类专家的非线性得分为90.7传统ACC为94.9而当前最强的商业模型Gemini-3-Pro得分仅为49.4开源模型Qwen最好的结果为39.1。在更严格的评测框架下模型与人类之间仍然存在显著差距。2、数据统计数据长度分布统计3、thinking的收益thinking的收益不是无条件成立的它高度依赖文本线索。论文实验显示开启 Thinking 后模型在有字幕/音频的设定下通常比在纯视觉设定下获得更明显的提升。 例如Qwen3.5-122B-A10B-Think64 frames 在无字幕和有字幕设置下分别带来 3.8/5.8 的提升。这说明显式文本语义仍然是很多模型完成多步推理时非常重要的锚点。但另一方面Thinking 也可能带来退化。Qwen3-VL-8B 在无字幕设定下出现了 -0.6 的下降而 KimiVL-16B 在整体上出现了 -3.3/-3. 的性能回落在更强调复杂推理的 Level 3 上退化甚至达到 -4.0/-3.9。总结当前很多模型的推理增强本质上仍然更擅长利用语言线索而不是稳定地从纯视觉、纯音频中抽取支撑推理的证据。一旦文本锚点不足Thinking 不但未必增益反而可能引入更多噪声。Reference[1] Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis[2] Video-MME-v2: Towards the Next Stage in Benchmarksfor Comprehensive Video Understanding