点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达【具身智能】微信群成立大家快扫码加入具身星球将获得最新具身智能技术和项目、❤️ 从入门到精通的学习路线、 具身智能招聘(实习/校招/社招/升学)、具身智能公司名单和高校实验室/教师名单和 行业动态和行业报告等。▲【具身智能】微信群听雨 发自 凹非寺转载自量子位QbitAIImageNet之后李飞飞再出手李飞飞团队最新发布ESI-Bench——一个专门用来评测具身空间智能的新基准。过去的空间智能评测默认给模型最优观测而ESI-Bench第一个把观察者变成行动者闭合了感知-行动回路。它为具身空间智能领域提供了一个系统性的评测框架覆盖人类核心空间认知能力的四大维度。论文的核心结论是现在的AI看图很厉害但离「会动、会摸、会主动找答案」的空间智能还差得远。ESI-Bench是什么ESI-Bench发布的背景是由于目前的空间智能benchmark测的都是「被动感知」。把一张或几张图片扔给模型问「A物体在B物体的左边还是右边」「这个杯子能装多少水」「抽屉里有没有东西」这样的题目测出来的是模型的视力而非空间推理能力。反观人类是怎么做的人类会站起来绕到物体背后去看会把抽屉拉开会把水倒出来量一量。这就是ESI-Bench的核心立场把观察者变成行动者。现实世界里智能体必须像人类一样主动决定行动、获取证据再基于新观测做下一步判断。团队把它称为「感知-行动回路」Perception-Action Loop。ESI-Bench就是这样一套超越现有基准的空间智能新评测基准它包含10个任务类别29个子类别3081个任务实例全部在OmniGibson仿真平台上构建场景素材来自BEHAVIOR-1K场景库。所有任务围绕Spelke的四大核心知识系统设计也就是人类婴儿天生就具备的空间直觉物体表征、布局与几何、数量表征、目标导向行动。它的关键设定在于行动强制。每一道题AI智能体必须主动行动才能拿到足够信息作答。模型不能坐在原地等图片它要决定往哪走、看什么、拿什么、怎么操作。举几个具体的例子比如评测中有一道「刚性容纳」题给定几个容器和几个物体要求把物体全部装进去。有的容器开口小、有的内部有隔板、有的盖子需要掀开才能看到真实容量。模型必须走近、俯身、甚至把容器拿起来从底部观察才能判断能不能装得下。还有「液体体积」题两个杯子从外观看不出容量差异模型需要把水倒进去测试或者直接拿起来掂量。这么一说大家应该也能直观感受到这套评测基准的设计理念正确答案不在任何单张图片里智能体必须主动行动并推理出正确结果。团队特别指出与此前工作相比ESI-Bench在三个地方有所超越从空间感知到空间能力在这里智能体不仅根据他们能感知到什么来评估还根据他们是否知道部署哪些具体能力来解决空间任务来评估选择性感知智能体必须确定哪些观察值得获取优先考虑与任务相关的信息而不是冗余或无信息的输入解决感知歧义智能体必须通过误导性观察进行推理以推断隐藏的空间结构和超越直接观察的潜在物理约束。测完发现了啥3个核心结论团队拿当前最强的多模态大模型做了全面测试包括GPT-5和Gemini系列。这是最主要的实验结果图包含了ESI-Bench在被动感知、主动探索、Oracle三种范式下的各项任务准确率涵盖2DVLM、3DLLM及人类基线。核心结论有3个。第一感知不是瓶颈行动才是。好消息是主动探索确实有效。在没有额外指令的情况下智能体自发涌现出多种空间策略。比如绕到物体背后观察move-behind、切换俯视角度top-down、把物体拿起来pick-up、把水倒出来验证pour-out。Gemini 3.1在「部分遮挡」任务上如果给到最佳观察视角准确率从14.6%暴涨到95.1%。这说明模型本身的感知能力是好的只要给对视角它就能看得懂。但问题在于模型自己找不到那个对的视角。更糟糕的问题在于被动多视角策略不仅没用反而有害。让GPT-5多看几张随机角度的图片空间距离任务的准确率从53.9%降到49.1%。图看得多了分反而低了。△GPT-5和Gemini 3.1在主动探索中达到正确答案所需的平均步数团队把这个现象命名为「动作盲视」Action Blindness一个差动作导致一个差视角差视角触发更差动作形成不可逆的级联失败。在结构围合任务上主动探索策略和上帝视角的差距高达49.7%。也就是说空间智能的卡点不在于视觉模型不够强而是行动策略几乎为零。第二3D重建不是万能药不完美的3D比2D更坑。既然2D被动看图不行那上3D呢这也是当前很多具身智能团队的路子先重建三维场景再在场景图上做推理。结果发现如果给的是真值3D上帝视角的完美几何那确实很强。Gemini在材质透明任务上2D版本得分44.0%3D版本得分60.4%提升16.4个百分点。在需要精确深度信息的任务上3D grounding有天然优势。但如果是真实重建呢团队用当前最先进的VGGT模型做场景重建再把重建结果喂给推理模型。结果那叫一个惨不忍睹几何配置任务上2D基线得分27.5%VGGT重建后的场景图得分只有9.9%。这说明不完美的3D不是中性失败它是负向失败。几何伪影、遮挡补全错误、深度估计偏差把这些失真信息编码成场景图就等于给推理模型喂了一份「有毒」的输入。相比之下2D虽然信息少但至少不失真3D如果重建质量不过关比2D还不如。第三元认知缺陷模型不知道自己看没看够。论文里还有一组对比实验探讨了智能体和人类的空间推理能力究竟还有多大差距。结果发现尽管人类与模型之间存在感知差距但该差距可能比普遍认为的要小。在部分类别中模型的被动表现甚至能与人类持平或超越人类。在真实轨迹条件下Gemini在部分遮挡任务上达到88.4%的准确率而人类为87.4%GPT-5在材质透明度任务上达到96.3%人类则为97.2%。然而在主动探索场景下二者的差距急剧显现。人类凭借明确的观察目标和停止时机表现远超模型且主动探索的表现更接近真实轨迹下的被动表现。例如在物理接触任务中人类准确率为88.3%而 GPT-5仅为 64.2%在材质透明度任务中人类准确率为93.6%Gemini 3.1则为52.3%。通过分析模型与人类的探索轨迹团队发现人类表现出更强的认知谨慎性在做出判断前会收集更多观测主动寻找可能证伪当前假设的视角并在模糊情境下降低置信度。而模型则会过早停止探索即便证据存在模糊性也仅在少数步骤后就以高置信度做出判断进而产生与场景状态相悖的空间幻觉。模型的过度自信还因动作选择的方向偏差而加剧模型不会探查正交角度或寻找能推翻初始印象的视角而是反复向同一方向移动积累的是冗余信息而非有效观测。团队把它定性为元认知metacognition缺陷模型不知道自己不知道。它缺乏一种内建的「怀疑机制」无法评估当前信息是否充分无法根据矛盾证据调整信念。这个问题从根本上区别于感知能力也是一个更加底层的挑战仅靠更强的视觉编码器或更多的探索步骤无法解决。论文作者最后再介绍一下这项工作的作者团队。一作是Yining Hong。Yining Hong斯坦福大学的博士后导师为Yejin Choi教授同时受到Leonidas Guibas教授、吴家俊教授和李飞飞教授的密切指导。她曾在UCLA获得计算机科学博士学位本科就读于上海交通大学电子工程系。此外她还是一名职业音乐家平时会和乐队一起巡演同时也是CVPR 2026的社交主席负责组织CVPR招待会和音乐表演。Jiageng Liu刘家耕加州大学洛杉矶分校UCLAMobility Lab的博士生。其本科就读于浙江大学竺可桢荣誉学院及计算机科学与技术学院的图灵班获人工智能学士学位。Han Yin清华大学本科生斯坦福大学Intern专业为计算机科学与技术。李飞飞、吴佳俊Jiajun Wu、Yejin Choi三位斯坦福教授也同时出现在作者列表里。另外还有来自西北大学的Manling Li教授和斯坦福的Leonidas Guibas教授参与。参考链接[1]https://arxiv.org/abs/2605.18746[2]https://esi-bench.github.io/【具身智能】学习路线发布扫描下方二维码加群后即可领取学习【具身智能】知识星球优惠券链接https://t.zsxq.com/z2Uz6【具身智能】vip 微信交流群成立还有 vip 微信交流群已加入【具身智能】知识星球的同学一定要扫描下方二维码添加具身智能小助手的微信微信号EAI0011她会拉你进【具身智能】 vip 微信交流群还可以第一时间从她的朋友圈获取本星球的所有内容推送更方便大家学习。点击阅读原文加入具身学习群
李飞飞团队新作ESI-Bench:具身智能的ImageNet来了!
发布时间:2026/5/24 22:07:45
点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达【具身智能】微信群成立大家快扫码加入具身星球将获得最新具身智能技术和项目、❤️ 从入门到精通的学习路线、 具身智能招聘(实习/校招/社招/升学)、具身智能公司名单和高校实验室/教师名单和 行业动态和行业报告等。▲【具身智能】微信群听雨 发自 凹非寺转载自量子位QbitAIImageNet之后李飞飞再出手李飞飞团队最新发布ESI-Bench——一个专门用来评测具身空间智能的新基准。过去的空间智能评测默认给模型最优观测而ESI-Bench第一个把观察者变成行动者闭合了感知-行动回路。它为具身空间智能领域提供了一个系统性的评测框架覆盖人类核心空间认知能力的四大维度。论文的核心结论是现在的AI看图很厉害但离「会动、会摸、会主动找答案」的空间智能还差得远。ESI-Bench是什么ESI-Bench发布的背景是由于目前的空间智能benchmark测的都是「被动感知」。把一张或几张图片扔给模型问「A物体在B物体的左边还是右边」「这个杯子能装多少水」「抽屉里有没有东西」这样的题目测出来的是模型的视力而非空间推理能力。反观人类是怎么做的人类会站起来绕到物体背后去看会把抽屉拉开会把水倒出来量一量。这就是ESI-Bench的核心立场把观察者变成行动者。现实世界里智能体必须像人类一样主动决定行动、获取证据再基于新观测做下一步判断。团队把它称为「感知-行动回路」Perception-Action Loop。ESI-Bench就是这样一套超越现有基准的空间智能新评测基准它包含10个任务类别29个子类别3081个任务实例全部在OmniGibson仿真平台上构建场景素材来自BEHAVIOR-1K场景库。所有任务围绕Spelke的四大核心知识系统设计也就是人类婴儿天生就具备的空间直觉物体表征、布局与几何、数量表征、目标导向行动。它的关键设定在于行动强制。每一道题AI智能体必须主动行动才能拿到足够信息作答。模型不能坐在原地等图片它要决定往哪走、看什么、拿什么、怎么操作。举几个具体的例子比如评测中有一道「刚性容纳」题给定几个容器和几个物体要求把物体全部装进去。有的容器开口小、有的内部有隔板、有的盖子需要掀开才能看到真实容量。模型必须走近、俯身、甚至把容器拿起来从底部观察才能判断能不能装得下。还有「液体体积」题两个杯子从外观看不出容量差异模型需要把水倒进去测试或者直接拿起来掂量。这么一说大家应该也能直观感受到这套评测基准的设计理念正确答案不在任何单张图片里智能体必须主动行动并推理出正确结果。团队特别指出与此前工作相比ESI-Bench在三个地方有所超越从空间感知到空间能力在这里智能体不仅根据他们能感知到什么来评估还根据他们是否知道部署哪些具体能力来解决空间任务来评估选择性感知智能体必须确定哪些观察值得获取优先考虑与任务相关的信息而不是冗余或无信息的输入解决感知歧义智能体必须通过误导性观察进行推理以推断隐藏的空间结构和超越直接观察的潜在物理约束。测完发现了啥3个核心结论团队拿当前最强的多模态大模型做了全面测试包括GPT-5和Gemini系列。这是最主要的实验结果图包含了ESI-Bench在被动感知、主动探索、Oracle三种范式下的各项任务准确率涵盖2DVLM、3DLLM及人类基线。核心结论有3个。第一感知不是瓶颈行动才是。好消息是主动探索确实有效。在没有额外指令的情况下智能体自发涌现出多种空间策略。比如绕到物体背后观察move-behind、切换俯视角度top-down、把物体拿起来pick-up、把水倒出来验证pour-out。Gemini 3.1在「部分遮挡」任务上如果给到最佳观察视角准确率从14.6%暴涨到95.1%。这说明模型本身的感知能力是好的只要给对视角它就能看得懂。但问题在于模型自己找不到那个对的视角。更糟糕的问题在于被动多视角策略不仅没用反而有害。让GPT-5多看几张随机角度的图片空间距离任务的准确率从53.9%降到49.1%。图看得多了分反而低了。△GPT-5和Gemini 3.1在主动探索中达到正确答案所需的平均步数团队把这个现象命名为「动作盲视」Action Blindness一个差动作导致一个差视角差视角触发更差动作形成不可逆的级联失败。在结构围合任务上主动探索策略和上帝视角的差距高达49.7%。也就是说空间智能的卡点不在于视觉模型不够强而是行动策略几乎为零。第二3D重建不是万能药不完美的3D比2D更坑。既然2D被动看图不行那上3D呢这也是当前很多具身智能团队的路子先重建三维场景再在场景图上做推理。结果发现如果给的是真值3D上帝视角的完美几何那确实很强。Gemini在材质透明任务上2D版本得分44.0%3D版本得分60.4%提升16.4个百分点。在需要精确深度信息的任务上3D grounding有天然优势。但如果是真实重建呢团队用当前最先进的VGGT模型做场景重建再把重建结果喂给推理模型。结果那叫一个惨不忍睹几何配置任务上2D基线得分27.5%VGGT重建后的场景图得分只有9.9%。这说明不完美的3D不是中性失败它是负向失败。几何伪影、遮挡补全错误、深度估计偏差把这些失真信息编码成场景图就等于给推理模型喂了一份「有毒」的输入。相比之下2D虽然信息少但至少不失真3D如果重建质量不过关比2D还不如。第三元认知缺陷模型不知道自己看没看够。论文里还有一组对比实验探讨了智能体和人类的空间推理能力究竟还有多大差距。结果发现尽管人类与模型之间存在感知差距但该差距可能比普遍认为的要小。在部分类别中模型的被动表现甚至能与人类持平或超越人类。在真实轨迹条件下Gemini在部分遮挡任务上达到88.4%的准确率而人类为87.4%GPT-5在材质透明度任务上达到96.3%人类则为97.2%。然而在主动探索场景下二者的差距急剧显现。人类凭借明确的观察目标和停止时机表现远超模型且主动探索的表现更接近真实轨迹下的被动表现。例如在物理接触任务中人类准确率为88.3%而 GPT-5仅为 64.2%在材质透明度任务中人类准确率为93.6%Gemini 3.1则为52.3%。通过分析模型与人类的探索轨迹团队发现人类表现出更强的认知谨慎性在做出判断前会收集更多观测主动寻找可能证伪当前假设的视角并在模糊情境下降低置信度。而模型则会过早停止探索即便证据存在模糊性也仅在少数步骤后就以高置信度做出判断进而产生与场景状态相悖的空间幻觉。模型的过度自信还因动作选择的方向偏差而加剧模型不会探查正交角度或寻找能推翻初始印象的视角而是反复向同一方向移动积累的是冗余信息而非有效观测。团队把它定性为元认知metacognition缺陷模型不知道自己不知道。它缺乏一种内建的「怀疑机制」无法评估当前信息是否充分无法根据矛盾证据调整信念。这个问题从根本上区别于感知能力也是一个更加底层的挑战仅靠更强的视觉编码器或更多的探索步骤无法解决。论文作者最后再介绍一下这项工作的作者团队。一作是Yining Hong。Yining Hong斯坦福大学的博士后导师为Yejin Choi教授同时受到Leonidas Guibas教授、吴家俊教授和李飞飞教授的密切指导。她曾在UCLA获得计算机科学博士学位本科就读于上海交通大学电子工程系。此外她还是一名职业音乐家平时会和乐队一起巡演同时也是CVPR 2026的社交主席负责组织CVPR招待会和音乐表演。Jiageng Liu刘家耕加州大学洛杉矶分校UCLAMobility Lab的博士生。其本科就读于浙江大学竺可桢荣誉学院及计算机科学与技术学院的图灵班获人工智能学士学位。Han Yin清华大学本科生斯坦福大学Intern专业为计算机科学与技术。李飞飞、吴佳俊Jiajun Wu、Yejin Choi三位斯坦福教授也同时出现在作者列表里。另外还有来自西北大学的Manling Li教授和斯坦福的Leonidas Guibas教授参与。参考链接[1]https://arxiv.org/abs/2605.18746[2]https://esi-bench.github.io/【具身智能】学习路线发布扫描下方二维码加群后即可领取学习【具身智能】知识星球优惠券链接https://t.zsxq.com/z2Uz6【具身智能】vip 微信交流群成立还有 vip 微信交流群已加入【具身智能】知识星球的同学一定要扫描下方二维码添加具身智能小助手的微信微信号EAI0011她会拉你进【具身智能】 vip 微信交流群还可以第一时间从她的朋友圈获取本星球的所有内容推送更方便大家学习。点击阅读原文加入具身学习群