美团 LongCat 团队推出 WBench：为 AI 视频世界模型评测带来新范式

发布时间：2026/6/12 22:57:12

美团 LongCat 团队推出 WBench为 AI 视频世界模型评测带来新范式AI 视频进化速度惊人是否想过走进 AI 生成的世界美团 LongCat 团队为搞清相关问题提出首个面向交互式视频世界模型的系统性多轮评测基准 WBench它像“CT 扫描仪”能精准定位世界模型问题。用 WBench 对 20 个前沿模型包括 Kling 3.0、HY - World 1.5、Genie 3 等进行“扫描”有如下核心发现不存在全能模型不同模型各有专长导航是独立技能与视频画质关系不大多轮交互是核心难点所有模型连续交互后表现变差导航能力平均分下降 33 点开源模型在特定能力上表现出色如 HY - World 1.5 导航能力突出。01 WBench 如何测出问题能得出上述结论得益于 WBench 的核心设计。一个强大的世界模型评测框架应包含世界定义、指令集、统一交互接口和评测套件四大核心要素。WBench 基于此理念构建其设计蓝图展示如下1.1 全面多样的“测试用例”WBench 包含 289 个测试案例和 1058 个交互轮次覆盖丰富的世界定义和指令集。你可让 AI 在未来感城市穿梭或置身流动油画能选择成为游戏主角以第三人称视角掌控也能化身第一人称探索世界。1.2 交互方式在舞台上设计丰富的“剧本”WBench 设计了导航、主体动作、事件编辑和视角切换四种核心交互方式可自由组合形成复杂多轮任务。比如可让角色完成特定动作、改变环境、切换视角等。通过“舞台”与“剧本”分离设计WBench 实现对视频质量、设定遵循度、交互遵循度、一致性、物理真实性五个维度的精准测量更多硬核指标实现细节可访问[项目主页](https://meituan-longcat.github.io/WBench/)。02 核心洞察用数据看清模型“短板”WBench 用数据揭示问题根源。从具体模型表现看“谁最强”答案是“看情况”若追求模型精准理解想法Kling 3.0 和 Wan 2.7 是第一梯队在设定遵循度和主体动作/事件编辑上表现突出。若想要丝滑运镜和精准导航控制专用世界模型优势明显HY - World 1.5 和 Genie 3 领先。在保持一致性上LingBot - World 表现突出。在物理真实性方面Wan 2.7 表现最佳。所有模型都面临视角切换难题平均分仅 30.7技术远未成熟。洞察一导航能力为何与其他维度“脱钩”相关性矩阵图显示导航与其他维度相关系数接近零说明当前模型学习渲染世界时没学会可控移动。原因是导航依赖独立的“空间状态表示”能力其他能力依赖通用生成先验即模型“知道”世界样子但不“理解”自身位置和方向。洞察二模型在多轮交互中如何“迷路”图展示模型连续交互中能力衰减情况导航曲线“雪崩式”下跌从第一轮到第四轮及以后分数下降 33 点证明位姿误差逐轮累积是迭代式生成范式的结构性缺陷。洞察三并非所有“世界”都生而平等分析发现不同世界设定有结构性难度差异如第一人称视角让导航容易但保持场景设定难动物主体因复杂动态性对模型挑战大。03 WBench 的价值定义下一代评测范式3.1 范式转移从“被动生成”到“主动交互”WBench 不仅是评测工具更代表研究范式演进。与同类基准对比它是唯一真正统一的评测基准覆盖开放域、双视角、四种交互类型和多轮闭环评测首次实现对不同输入范式模型的统一评测打破技术流派壁垒。3.2 可靠性验证与人类偏好高度对齐WBench 自动评分结果与 400 名人类标注者的偏好判断高度一致Spearman ρ ≥ 0.94证明其准确性和可靠性。04 总结与展望WBench 的提出是迈向“交互世界”的尝试揭示当前技术边界。它已开源欢迎所有世界模型来跑分。PaperGitHubHomePageHuggingFace

嵌入式Linux入门实战：基于i.MX23 EVK的硬件架构与BSP深度解析

1. 项目概述：为什么选择i.MX23 EVK作为你的嵌入式起点？在嵌入式开发的世界里，选型往往是项目成败的第一个分水岭。面对市场上琳琅满目的处理器和开发板，新手容易眼花缭乱，老手则可能陷入路径依赖。今天我想聊聊一款在十…

2026/6/12 22:56:51 阅读更多

i.MX25 ARM9车机芯片：入门级车载信息娱乐系统硬件设计与Linux开发实战

1. 项目概述：为什么i.MX25是入门级车机的“甜点”之选在汽车电子圈干了十几年，我见过太多项目在成本与性能的钢丝上摇摆。尤其是面向主流市场的入门级车型，主机厂对信息娱乐系统的要求越来越“苛刻”：既要支持蓝牙音乐、手机互联这…

2026/6/12 22:56:31 阅读更多

别再只盯着编码区了！5分钟搞懂植物mRNA上的‘隐形开关’uORF：从概念到前沿研究（附文献导读）

别再只盯着编码区了！5分钟搞懂植物mRNA上的‘隐形开关’uORF：从概念到前沿研究（附文献导读）想象一下，植物的基因表达就像一场精心编排的交响乐，而传统认知中的编码区（ORF）只是乐谱上…

2026/6/12 22:56:31 阅读更多

从1965年那篇论文讲起：Wilkinson不等分功分器的设计自由与取舍

1965年微波革命：Wilkinson不等分功分器背后的设计哲学1965年1月，一篇题为《Split Tee Power Divider》的论文悄然发表在《IEEE Transactions on Microwave Theory and Techniques》上，作者Parad和Moynihan可能未曾预料到，他们提出…

2026/6/13 0:18:05 阅读更多

别再死记硬背了！用‘教室排课’这个生活例子，5分钟搞懂动态规划核心思想

用教室排课场景5分钟吃透动态规划：从生活案例到算法思维跃迁刚接触动态规划时，很多人会陷入一个怪圈：看题解时觉得"原来如此简单"，自己动手却总是无从下手。这就像第一次学骑自行车，看别人骑得轻松自如&…

2026/6/13 0:18:05 阅读更多

P2041RDB开发实战：从多核处理器到网络加速的嵌入式系统设计

1. 项目概述：为什么P2041RDB是网络与嵌入式开发的“瑞士军刀”在嵌入式网络设备开发领域，尤其是路由器、交换机、统一威胁管理（UTM）网关这类对性能和集成度要求极高的产品，从芯片选型到硬件设计，再到软件适…

2026/6/13 0:17:24 阅读更多

VSCode JSON插件终极指南：快速掌握JSON结构化编辑与可视化

VSCode JSON插件终极指南：快速掌握JSON结构化编辑与可视化【免费下载链接】vscode-json Json for Visual Studio Code 项目地址: https://gitcode.com/gh_mirrors/vs/vscode-json 还在为JSON文件的结构复杂而烦恼吗？想象一下，当你面对…

2026/6/13 0:16:44 阅读更多

WRF数据同化怎么选？Grid Nudging vs Spectral Nudging vs Obs Nudging，看完这篇不再纠结

WRF数据同化实战指南：Grid/Spectral/Obs Nudging技术选型全解析当气象模拟的精度要求越来越高，数据同化技术成为提升WRF模式性能的关键环节。面对Grid Nudging、Spectral Nudging和Observation Nudging这三种主流方法，许多中高级用户常陷入选…

2026/6/13 0:16:24 阅读更多

SQL语句同步练习题1（含答案）

SQL基本语句同步练习题，标黑部分即为答案。单下面说法错误的是（） A. DBS包含DB和DBMS B. DBMS(数据库管理系统)能管理多个数据库 C. DB（数据库）中可以存储、文字、图片、声音等多种类型。 D. 一个数据库管理系统中只能管理一个表单关于MYSQL数据库，以下说法错误的…

2026/6/13 0:13:01 阅读更多

【课程设计/毕业设计】基于 SpringBoot 的患者就诊信息管理系统的设计与实现基于 SpringBoot 的医生接诊与处方管理系统的设计与实现【附源码、数据库、万字文档】

博主介绍：✌️码农一枚 ，专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围：&am…

2026/6/13 0:00:11 阅读更多

numb.nvim 常见问题解答：从安装到使用的 10 个实用技巧

numb.nvim 常见问题解答：从安装到使用的 10 个实用技巧【免费下载链接】numb.nvim Peek lines just when you intend 项目地址: https://gitcode.com/gh_mirrors/nu/numb.nvim numb.nvim 是 Neovim 编辑器中最实用的预览插件之一，它能在你输入 :…

2026/6/13 0:00:11 阅读更多

从MOS管到变压器：手把手教你用LTspice仿真分析功率器件中的寄生电容效应

从MOS管到变压器：用LTspice深度解析功率器件寄生电容效应当你在调试一个Buck变换器时，是否遇到过开关波形出现异常振铃？或者发现效率比理论计算低了5%却找不到原因？这些问题的罪魁祸首往往就藏在那些看不见的寄生电容里。作为硬件…

2026/6/13 0:02:12 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/12 1:13:40 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/12 1:13:42 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/12 1:13:40 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/12 10:26:09 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/12 10:00:48 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/12 10:00:17 阅读更多

相关文章