美团 LongCat 团队推出 WBench:为 AI 视频世界模型评测带来新范式 美团 LongCat 团队推出 WBench为 AI 视频世界模型评测带来新范式AI 视频进化速度惊人是否想过走进 AI 生成的世界美团 LongCat 团队为搞清相关问题提出首个面向交互式视频世界模型的系统性多轮评测基准 WBench它像“CT 扫描仪”能精准定位世界模型问题。用 WBench 对 20 个前沿模型包括 Kling 3.0、HY - World 1.5、Genie 3 等进行“扫描”有如下核心发现不存在全能模型不同模型各有专长导航是独立技能与视频画质关系不大多轮交互是核心难点所有模型连续交互后表现变差导航能力平均分下降 33 点开源模型在特定能力上表现出色如 HY - World 1.5 导航能力突出。01 WBench 如何测出问题能得出上述结论得益于 WBench 的核心设计。一个强大的世界模型评测框架应包含世界定义、指令集、统一交互接口和评测套件四大核心要素。WBench 基于此理念构建其设计蓝图展示如下1.1 全面多样的“测试用例”WBench 包含 289 个测试案例和 1058 个交互轮次覆盖丰富的世界定义和指令集。你可让 AI 在未来感城市穿梭或置身流动油画能选择成为游戏主角以第三人称视角掌控也能化身第一人称探索世界。1.2 交互方式在舞台上设计丰富的“剧本”WBench 设计了导航、主体动作、事件编辑和视角切换四种核心交互方式可自由组合形成复杂多轮任务。比如可让角色完成特定动作、改变环境、切换视角等。通过“舞台”与“剧本”分离设计WBench 实现对视频质量、设定遵循度、交互遵循度、一致性、物理真实性五个维度的精准测量更多硬核指标实现细节可访问[项目主页](https://meituan-longcat.github.io/WBench/)。02 核心洞察用数据看清模型“短板”WBench 用数据揭示问题根源。从具体模型表现看“谁最强”答案是“看情况”若追求模型精准理解想法Kling 3.0 和 Wan 2.7 是第一梯队在设定遵循度和主体动作/事件编辑上表现突出。若想要丝滑运镜和精准导航控制专用世界模型优势明显HY - World 1.5 和 Genie 3 领先。在保持一致性上LingBot - World 表现突出。在物理真实性方面Wan 2.7 表现最佳。所有模型都面临视角切换难题平均分仅 30.7技术远未成熟。洞察一导航能力为何与其他维度“脱钩”相关性矩阵图显示导航与其他维度相关系数接近零说明当前模型学习渲染世界时没学会可控移动。原因是导航依赖独立的“空间状态表示”能力其他能力依赖通用生成先验即模型“知道”世界样子但不“理解”自身位置和方向。洞察二模型在多轮交互中如何“迷路”图展示模型连续交互中能力衰减情况导航曲线“雪崩式”下跌从第一轮到第四轮及以后分数下降 33 点证明位姿误差逐轮累积是迭代式生成范式的结构性缺陷。洞察三并非所有“世界”都生而平等分析发现不同世界设定有结构性难度差异如第一人称视角让导航容易但保持场景设定难动物主体因复杂动态性对模型挑战大。03 WBench 的价值定义下一代评测范式3.1 范式转移从“被动生成”到“主动交互”WBench 不仅是评测工具更代表研究范式演进。与同类基准对比它是唯一真正统一的评测基准覆盖开放域、双视角、四种交互类型和多轮闭环评测首次实现对不同输入范式模型的统一评测打破技术流派壁垒。3.2 可靠性验证与人类偏好高度对齐WBench 自动评分结果与 400 名人类标注者的偏好判断高度一致Spearman ρ ≥ 0.94证明其准确性和可靠性。04 总结与展望WBench 的提出是迈向“交互世界”的尝试揭示当前技术边界。它已开源欢迎所有世界模型来跑分。PaperGitHubHomePageHuggingFace