【VLM】视频理解benchmark：Video-MME v1和v2

发布时间：2026/7/5 15:01:14

noteVideo-MME-v1基准内置12种独立任务题型覆盖基础视觉→时序动态→高阶综合推理全维度时序行为、运动模式、多目标跨帧追踪、时序先后推理、事件因果推导、长视频摘要、跨模态信息融合、多语言视频理解、细节定位、空间关系推理、抽象剧情理解、多线索综合问答Video-MME-v2想推动的是一次评测理念上的转变真正需要比较的是谁能够在连续、动态、多模态的信息中像人一样真正理解正在发生的事情文章目录note一、Video-MME1、Video-MME介绍2、Video MME 12类任务体系3、Video MME关键实验结果二、Video-MME-v21、benchmark介绍2、数据统计3、thinking的收益Reference一、Video-MME1、Video-MME介绍论文Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis项目主页榜单、数据集、任务说明https://video-mme.github.io/home_page.htmlGitHub评测代码仓库https://github.com/BradyFU/Video-MMEarXiv论文https://arxiv.org/pdf/2604.05015二、核心优化点研究痛点过往多模态评测基准仅聚焦静态图像缺少覆盖长短时序、音视文多模态融合的标准化视频评测集无法统一衡量时序记忆、跨帧推理、多线索联合理解能力。四大核心设计◦ 场景全覆盖6大主领域知识科普、影视、体育、舞台艺术、日常记录、多语言30个细分子场景◦ 完整时序跨度视频时长11秒1小时分短/中/长视频专门测试长上下文记忆◦ 多模态输入范式支持纯画面、画面字幕、画面音频三种评测模式量化音/文本对视频理解的增益◦ 高质量人工标注900段视频总254小时、2700道选择题全程人工校验无机器生成脏数据。核心创新构建12类分层视频理解评测任务体系从底层视觉感知到高层综合推理全覆盖形成完整能力分层评测标准。2、Video MME 12类任务体系基准内置12种独立任务题型覆盖基础视觉→时序动态→高阶综合推理全维度画面物体识别识别画面内物体、属性、场景基础视觉感知动作识别区分人物/物体动态行为、运动模式多目标跨帧追踪持续定位多物体在不同时间戳的位置变化时序先后推理判断事件、动作发生的时间先后顺序事件因果推导基于时序上下文分析事件发生的因果逻辑长视频摘要提取数十分钟长视频核心主线、关键情节跨模态信息融合联合画面、字幕、音频信息完成统一推理多语言视频理解适配带多语种字幕/语音的跨语言视频问答细节定位精准定位特定物体、台词、动作出现的时间片段空间关系推理判断物体间远近、方位、遮挡等空间约束抽象剧情理解解读隐喻、人物情绪、剧情伏笔、叙事逻辑多线索综合问答融合时序、空间、音文多条线索做多跳推理3、Video MME关键实验结果Video MME关键实验结果2025年版闭源模型性能Gemini 1.5 Pro平均精度75%高于GPT-4o71.9%为初代榜单最优时序衰减规律所有模型准确率随视频时长拉长持续下降开源模型长时序短板显著大于闭源模态增益结论叠加字幕/音频输入后模型整体准确率提升8%~15%单帧视觉不足以支撑复杂推理任务分层差距12类任务性能分化明显抽象剧情、长视频摘要、多线索综合问答是所有模型普遍弱项。二、Video-MME-v2链接https://arxiv.org/pdf/2604.050151、benchmark介绍考虑三个维度1、信息检索和聚合2、时序理解3、复杂推理评测方法1、能力一致性考察多个角度提问确保模型是真的会2、推理连贯非线性评分机制如零散答对几题不能拿高分、首错阶段机制传统单选题目benchmark高估模型效果目前效果gemini 3 pro领先seed2.0 pro紧随其后但是和human差别仍然很大非常直观的评测结果显示截止20260704人类专家的非线性得分为90.7传统ACC为94.9而当前最强的商业模型Gemini-3-Pro得分仅为49.4开源模型Qwen最好的结果为39.1。在更严格的评测框架下模型与人类之间仍然存在显著差距。2、数据统计数据长度分布统计3、thinking的收益thinking的收益不是无条件成立的它高度依赖文本线索。论文实验显示开启 Thinking 后模型在有字幕/音频的设定下通常比在纯视觉设定下获得更明显的提升。例如Qwen3.5-122B-A10B-Think64 frames 在无字幕和有字幕设置下分别带来 3.8/5.8 的提升。这说明显式文本语义仍然是很多模型完成多步推理时非常重要的锚点。但另一方面Thinking 也可能带来退化。Qwen3-VL-8B 在无字幕设定下出现了 -0.6 的下降而 KimiVL-16B 在整体上出现了 -3.3/-3. 的性能回落在更强调复杂推理的 Level 3 上退化甚至达到 -4.0/-3.9。总结当前很多模型的推理增强本质上仍然更擅长利用语言线索而不是稳定地从纯视觉、纯音频中抽取支撑推理的证据。一旦文本锚点不足Thinking 不但未必增益反而可能引入更多噪声。Reference[1] Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis[2] Video-MME-v2: Towards the Next Stage in Benchmarksfor Comprehensive Video Understanding

AI大模型应用开发学习路线（纯python）

一、python语法数据类型输入输出运算符分支语句循环语句字符串列表元组字典集合函数拆包lambda文件读写异常模块面向对象魔法方法继承多态抽象类闭包装饰器网络编程多进程编程生成器正则表达式二、linux三、sql四、numpy五、pandas六、机器学习KNN算法线性回归逻辑回归决策树ID…

2026/7/5 15:00:54 阅读更多

5个实用技巧：轻松掌握Deforum扩展项目动画制作

5个实用技巧：轻松掌握Deforum扩展项目动画制作【免费下载链接】sd-webui-deforum Deforum extension for AUTOMATIC1111s Stable Diffusion webui 项目地址: https://gitcode.com/gh_mirrors/sd/sd-webui-deforum Deforum扩展项目是为AUTOMATIC1111的Stable…

2026/7/5 14:58:52 阅读更多

英伟达市值突破 5.4 万亿美元，大模型厂商沦为算力佃农了吗？

英伟达市值突破 5.4 万亿美元，大模型厂商沦为"算力佃农"？ 36氪最新报道提出了一个尖锐的判断：英伟达已经成为 AI 行业最大的"地主"，而大模型厂商——包括 OpenAI、Anthropic——本质上是"算力佃农"…

2026/7/5 14:58:32 阅读更多

3分钟搭建Python大麦网抢票脚本：告别手动刷新时代

3分钟搭建Python大麦网抢票脚本：告别手动刷新时代【免费下载链接】Automatic_ticket_purchase 大麦网抢票脚本项目地址: https://gitcode.com/GitHub_Trending/au/Automatic_ticket_purchase 还在为抢不到心仪的演唱会门票而烦恼吗？Python大麦网…

2026/7/5 16:18:42 阅读更多

如何为生成式AI应用在多平台部署高性能文档处理工具

如何为生成式AI应用在多平台部署高性能文档处理工具【免费下载链接】docling Get your documents ready for gen AI 项目地址: https://gitcode.com/GitHub_Trending/do/docling Docling作为一款强大的文档处理SDK和CLI工具，能够将PDF、DOCX、HTML等多种格式…

2026/7/5 16:18:22 阅读更多

终极跨版本Python字节码逆向方案：pycdc完整指南

终极跨版本Python字节码逆向方案：pycdc完整指南【免费下载链接】pycdc C python bytecode disassembler and decompiler 项目地址: https://gitcode.com/GitHub_Trending/py/pycdc 你是否曾经面对一个Python 3.13编译的.pyc文件却束手无策？当安全…

2026/7/5 16:18:22 阅读更多

如何在不损失画质的情况下实现视频和图片的极致压缩？

如何在不损失画质的情况下实现视频和图片的极致压缩？ 【免费下载链接】compressO Convert any video/image into a tiny size. 100% free & open-source. Available for Mac, Windows & Linux. 项目地址: https://gitcode.com/gh_mirrors/co/compressO …

2026/7/5 16:18:02 阅读更多

突破macOS原生限制：QLVideo视频预览工具实现全格式支持

突破macOS原生限制：QLVideo视频预览工具实现全格式支持【免费下载链接】QuickLookVideo This package allows macOS Finder to display thumbnails, static QuickLook previews, cover art and metadata for most types of video files. 项目地址: https://gitco…

2026/7/5 16:17:21 阅读更多

3步掌握Typedown：Windows平台高效Markdown写作的终极指南

3步掌握Typedown：Windows平台高效Markdown写作的终极指南【免费下载链接】Typedown A markdown editor 项目地址: https://gitcode.com/gh_mirrors/ty/Typedown 在Windows平台上寻找一款既轻量又功能全面的Markdown编辑器？Typedown正是为你量身定…

2026/7/5 16:16:20 阅读更多

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略【免费下载链接】ContextMenuManager 🖱️ 纯粹的Windows右键菜单管理程序项目地址: https://gitcode.com/gh_mirrors/co/ContextMenuManager 你是否曾为Windows右键菜单中那些…

2026/7/5 0:00:07 阅读更多

从GitHub安全案例解析常见漏洞与防护实践

1. 项目概述：从GitHub Trending看安全实战最近在GitHub Trending上看到一个项目，叫 skills4/skills ，它因为一些安全漏洞案例被大家讨论。这其实是一个挺典型的场景：一个旨在展示或教授某种技能的仓库，本身却成了安…

2026/7/5 0:01:07 阅读更多

MLT 2026启示：因果推理与概率建模驱动下一代LLM应用

# MLT 2026启示：因果推理与概率建模驱动下一代LLM应用## 一、背景与挑战：从“黑箱预测”到“可信推理”2026年6月，第7届机器学习与趋势国际会议（MLT 2026）将在悉尼召开。会议议程中，“因果与可解释机器学习…

2026/7/5 0:01:08 阅读更多

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略

2026/7/5 0:00:07 阅读更多

从GitHub安全案例解析常见漏洞与防护实践

2026/7/5 0:01:07 阅读更多

MLT 2026启示：因果推理与概率建模驱动下一代LLM应用

2026/7/5 0:01:08 阅读更多

FAE放射组学分析工具：医学影像特征探索的完整解决方案

FAE放射组学分析工具：医学影像特征探索的完整解决方案【免费下载链接】FAE FeAture Explorer 项目地址: https://gitcode.com/gh_mirrors/fae/FAE 你是否曾经面对海量医学影像数据感到无从下手？想要从CT、MRI等影像中提取有价值的定量特征&#…

2026/7/5 0:18:44 阅读更多

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南【免费下载链接】happy-llm 📚 从零开始构建大模型项目地址: https://gitcode.com/GitHub_Trending/ha/happy-llm 还在为大型多模态模型动辄数十亿参数、显存占用高而烦恼&…

2026/7/5 0:22:11 阅读更多

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址…

2026/7/5 0:22:19 阅读更多

相关文章

AI大模型应用开发学习路线（纯python）

5个实用技巧：轻松掌握Deforum扩展项目动画制作

英伟达市值突破 5.4 万亿美元，大模型厂商沦为算力佃农了吗？

3分钟搭建Python大麦网抢票脚本：告别手动刷新时代

如何为生成式AI应用在多平台部署高性能文档处理工具

终极跨版本Python字节码逆向方案：pycdc完整指南

如何在不损失画质的情况下实现视频和图片的极致压缩？

突破macOS原生限制：QLVideo视频预览工具实现全格式支持

3步掌握Typedown：Windows平台高效Markdown写作的终极指南

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略

从GitHub安全案例解析常见漏洞与防护实践

MLT 2026启示：因果推理与概率建模驱动下一代LLM应用

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略

从GitHub安全案例解析常见漏洞与防护实践

MLT 2026启示：因果推理与概率建模驱动下一代LLM应用

FAE放射组学分析工具：医学影像特征探索的完整解决方案

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南