李飞飞团队新作ESI-Bench：具身智能的ImageNet来了！

发布时间：2026/5/24 22:07:45

点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达【具身智能】微信群成立大家快扫码加入具身星球将获得最新具身智能技术和项目、❤️ 从入门到精通的学习路线、具身智能招聘(实习/校招/社招/升学)、具身智能公司名单和高校实验室/教师名单和行业动态和行业报告等。▲【具身智能】微信群听雨发自凹非寺转载自量子位QbitAIImageNet之后李飞飞再出手李飞飞团队最新发布ESI-Bench——一个专门用来评测具身空间智能的新基准。过去的空间智能评测默认给模型最优观测而ESI-Bench第一个把观察者变成行动者闭合了感知-行动回路。它为具身空间智能领域提供了一个系统性的评测框架覆盖人类核心空间认知能力的四大维度。论文的核心结论是现在的AI看图很厉害但离「会动、会摸、会主动找答案」的空间智能还差得远。ESI-Bench是什么ESI-Bench发布的背景是由于目前的空间智能benchmark测的都是「被动感知」。把一张或几张图片扔给模型问「A物体在B物体的左边还是右边」「这个杯子能装多少水」「抽屉里有没有东西」这样的题目测出来的是模型的视力而非空间推理能力。反观人类是怎么做的人类会站起来绕到物体背后去看会把抽屉拉开会把水倒出来量一量。这就是ESI-Bench的核心立场把观察者变成行动者。现实世界里智能体必须像人类一样主动决定行动、获取证据再基于新观测做下一步判断。团队把它称为「感知-行动回路」Perception-Action Loop。ESI-Bench就是这样一套超越现有基准的空间智能新评测基准它包含10个任务类别29个子类别3081个任务实例全部在OmniGibson仿真平台上构建场景素材来自BEHAVIOR-1K场景库。所有任务围绕Spelke的四大核心知识系统设计也就是人类婴儿天生就具备的空间直觉物体表征、布局与几何、数量表征、目标导向行动。它的关键设定在于行动强制。每一道题AI智能体必须主动行动才能拿到足够信息作答。模型不能坐在原地等图片它要决定往哪走、看什么、拿什么、怎么操作。举几个具体的例子比如评测中有一道「刚性容纳」题给定几个容器和几个物体要求把物体全部装进去。有的容器开口小、有的内部有隔板、有的盖子需要掀开才能看到真实容量。模型必须走近、俯身、甚至把容器拿起来从底部观察才能判断能不能装得下。还有「液体体积」题两个杯子从外观看不出容量差异模型需要把水倒进去测试或者直接拿起来掂量。这么一说大家应该也能直观感受到这套评测基准的设计理念正确答案不在任何单张图片里智能体必须主动行动并推理出正确结果。团队特别指出与此前工作相比ESI-Bench在三个地方有所超越从空间感知到空间能力在这里智能体不仅根据他们能感知到什么来评估还根据他们是否知道部署哪些具体能力来解决空间任务来评估选择性感知智能体必须确定哪些观察值得获取优先考虑与任务相关的信息而不是冗余或无信息的输入解决感知歧义智能体必须通过误导性观察进行推理以推断隐藏的空间结构和超越直接观察的潜在物理约束。测完发现了啥3个核心结论团队拿当前最强的多模态大模型做了全面测试包括GPT-5和Gemini系列。这是最主要的实验结果图包含了ESI-Bench在被动感知、主动探索、Oracle三种范式下的各项任务准确率涵盖2DVLM、3DLLM及人类基线。核心结论有3个。第一感知不是瓶颈行动才是。好消息是主动探索确实有效。在没有额外指令的情况下智能体自发涌现出多种空间策略。比如绕到物体背后观察move-behind、切换俯视角度top-down、把物体拿起来pick-up、把水倒出来验证pour-out。Gemini 3.1在「部分遮挡」任务上如果给到最佳观察视角准确率从14.6%暴涨到95.1%。这说明模型本身的感知能力是好的只要给对视角它就能看得懂。但问题在于模型自己找不到那个对的视角。更糟糕的问题在于被动多视角策略不仅没用反而有害。让GPT-5多看几张随机角度的图片空间距离任务的准确率从53.9%降到49.1%。图看得多了分反而低了。△GPT-5和Gemini 3.1在主动探索中达到正确答案所需的平均步数团队把这个现象命名为「动作盲视」Action Blindness一个差动作导致一个差视角差视角触发更差动作形成不可逆的级联失败。在结构围合任务上主动探索策略和上帝视角的差距高达49.7%。也就是说空间智能的卡点不在于视觉模型不够强而是行动策略几乎为零。第二3D重建不是万能药不完美的3D比2D更坑。既然2D被动看图不行那上3D呢这也是当前很多具身智能团队的路子先重建三维场景再在场景图上做推理。结果发现如果给的是真值3D上帝视角的完美几何那确实很强。Gemini在材质透明任务上2D版本得分44.0%3D版本得分60.4%提升16.4个百分点。在需要精确深度信息的任务上3D grounding有天然优势。但如果是真实重建呢团队用当前最先进的VGGT模型做场景重建再把重建结果喂给推理模型。结果那叫一个惨不忍睹几何配置任务上2D基线得分27.5%VGGT重建后的场景图得分只有9.9%。这说明不完美的3D不是中性失败它是负向失败。几何伪影、遮挡补全错误、深度估计偏差把这些失真信息编码成场景图就等于给推理模型喂了一份「有毒」的输入。相比之下2D虽然信息少但至少不失真3D如果重建质量不过关比2D还不如。第三元认知缺陷模型不知道自己看没看够。论文里还有一组对比实验探讨了智能体和人类的空间推理能力究竟还有多大差距。结果发现尽管人类与模型之间存在感知差距但该差距可能比普遍认为的要小。在部分类别中模型的被动表现甚至能与人类持平或超越人类。在真实轨迹条件下Gemini在部分遮挡任务上达到88.4%的准确率而人类为87.4%GPT-5在材质透明度任务上达到96.3%人类则为97.2%。然而在主动探索场景下二者的差距急剧显现。人类凭借明确的观察目标和停止时机表现远超模型且主动探索的表现更接近真实轨迹下的被动表现。例如在物理接触任务中人类准确率为88.3%而 GPT-5仅为 64.2%在材质透明度任务中人类准确率为93.6%Gemini 3.1则为52.3%。通过分析模型与人类的探索轨迹团队发现人类表现出更强的认知谨慎性在做出判断前会收集更多观测主动寻找可能证伪当前假设的视角并在模糊情境下降低置信度。而模型则会过早停止探索即便证据存在模糊性也仅在少数步骤后就以高置信度做出判断进而产生与场景状态相悖的空间幻觉。模型的过度自信还因动作选择的方向偏差而加剧模型不会探查正交角度或寻找能推翻初始印象的视角而是反复向同一方向移动积累的是冗余信息而非有效观测。团队把它定性为元认知metacognition缺陷模型不知道自己不知道。它缺乏一种内建的「怀疑机制」无法评估当前信息是否充分无法根据矛盾证据调整信念。这个问题从根本上区别于感知能力也是一个更加底层的挑战仅靠更强的视觉编码器或更多的探索步骤无法解决。论文作者最后再介绍一下这项工作的作者团队。一作是Yining Hong。Yining Hong斯坦福大学的博士后导师为Yejin Choi教授同时受到Leonidas Guibas教授、吴家俊教授和李飞飞教授的密切指导。她曾在UCLA获得计算机科学博士学位本科就读于上海交通大学电子工程系。此外她还是一名职业音乐家平时会和乐队一起巡演同时也是CVPR 2026的社交主席负责组织CVPR招待会和音乐表演。Jiageng Liu刘家耕加州大学洛杉矶分校UCLAMobility Lab的博士生。其本科就读于浙江大学竺可桢荣誉学院及计算机科学与技术学院的图灵班获人工智能学士学位。Han Yin清华大学本科生斯坦福大学Intern专业为计算机科学与技术。李飞飞、吴佳俊Jiajun Wu、Yejin Choi三位斯坦福教授也同时出现在作者列表里。另外还有来自西北大学的Manling Li教授和斯坦福的Leonidas Guibas教授参与。参考链接[1]https://arxiv.org/abs/2605.18746[2]https://esi-bench.github.io/【具身智能】学习路线发布扫描下方二维码加群后即可领取学习【具身智能】知识星球优惠券链接https://t.zsxq.com/z2Uz6【具身智能】vip 微信交流群成立还有 vip 微信交流群已加入【具身智能】知识星球的同学一定要扫描下方二维码添加具身智能小助手的微信微信号EAI0011她会拉你进【具身智能】 vip 微信交流群还可以第一时间从她的朋友圈获取本星球的所有内容推送更方便大家学习。点击阅读原文加入具身学习群

卖电机怎么找客户？下游工厂在哪里

卖电机找客户，本质是找用电机的下游工厂，核心难点是拿到这些下游厂的名单和联系方式。展会遇到的多半是同行，百度搜来的多半是询价投机客，真正批量采购电机的工厂躲在各地产业带里，不主动露面。这篇从下游映射、传统渠…

2026/5/24 22:07:25 阅读更多

卖瓦楞纸箱怎么找客户？下游工厂在哪里

卖瓦楞纸箱找客户，本质是找用箱量大的下游工厂，核心难点是拿到这些工厂的名单和联系人——因为纸箱是本地化极强的耗材，客户往往就在方圆 100 到 200 公里内，谁先把本地下游工厂版图盘清楚，谁就掌握了竞争主动权。用箱…

2026/5/24 22:07:25 阅读更多

Python Anaconda，为什么要创建虚拟环境，Pycharm使用

开发任务时创建多个项目，项目会依赖不同的Python环境。有的用到Python3.6、有的用到Python3.7；有的用Pytorch开发、有的TensorFlow开发。不同项目所需版本和依赖放到不同的虚拟环境中，让项目不会起冲突。这也是经典的工程化问题Anaconda&…

2026/5/24 22:06:24 阅读更多

2026论文写作工具红黑榜：AI论文工具怎么选？别再瞎找了！

2026年论文写作工具红黑榜出炉，红榜优先推荐千笔AI、ThouPen、豆包，适配国内学术规范，提升写作效率；黑榜需避开低质免费工具、无真实引用平台、过度依赖全文生成的工具。选择时应按需求匹配三维模型（需求匹配度 - 数据…

2026/5/24 22:53:23 阅读更多

2026年亲测一键生成论文工具指南（高效定稿版）

为解决学术写作中效率与合规两大核心痛点，本文精选8款高适配性AI论文写作工具（按综合优先级排序），围绕中文学术规范适配、真实参考文献生成、格式标准化、高性价比四大核心维度筛选，同时配套分场景精准选型方案与学术合…

2026/5/24 22:53:23 阅读更多

使用AWS中国区Lambda集成Glue Schema Registry消费Kafka消息的实践

本文在 AWS 中国区（cn-north-1）实现 Docker 自建 Kafka 与 AWS Lambda Glue Schema Registry 的完整集成。Kafka 运行在 EC2 实例上，Lambda 通过 VPC 内网消费消息，使用 Avro 格式进行数据序列化。整体的数据流图如下 CloudWat…

2026/5/24 22:53:03 阅读更多

云原生应用开发

云原生应用开发 1. 技术分析 1.1 云原生概述云原生是构建和运行应用的现代方法： 云原生特征容器化: 应用打包微服务: 模块化架构持续交付: 自动化部署可观测性: 监控和追踪云原生要素:DevOps: 开发运维一体化CI/CD: 持续集成交付自动化: 自动伸缩、自愈1.2 微服务架…

2026/5/24 22:53:03 阅读更多

企业团队如何利用Taotoken CLI工具统一配置开发环境与API密钥

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度企业团队如何利用Taotoken CLI工具统一配置开发环境与API密钥在团队协作开发中，一个常见的问题是API密钥的管理与开发…

2026/5/24 22:51:42 阅读更多

【切负荷】计及切负荷和直流潮流(DC-OPF)风-火-储经济调度模型研究【IEEE24节点】附Python代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长毕业设计辅导、数学建模、数据处理、程序设计科研仿真。🍎完整代码获取定制创新论文复现点击：Matlab科研工作室👇 关注我领取海量matlab电子书和数学建模资料 &#x1f3…

2026/5/24 22:47:59 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/24 0:01:12 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/24 0:02:33 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

2026/5/24 0:01:12 阅读更多

附录 B：术语表

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

2026/5/24 0:02:33 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/24 15:30:50 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/24 15:03:26 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/24 9:50:45 阅读更多

相关文章

卖电机怎么找客户？下游工厂在哪里

卖瓦楞纸箱怎么找客户？下游工厂在哪里

Python Anaconda，为什么要创建虚拟环境，Pycharm使用

2026论文写作工具红黑榜：AI论文工具怎么选？别再瞎找了！

2026年亲测一键生成论文工具指南（高效定稿版）

使用AWS中国区Lambda集成Glue Schema Registry消费Kafka消息的实践

云原生应用开发

企业团队如何利用Taotoken CLI工具统一配置开发环境与API密钥

【切负荷】计及切负荷和直流潮流(DC-OPF)风-火-储经济调度模型研究【IEEE24节点】附Python代码

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥