LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局

发布时间：2026/5/23 11:31:42

听雨发自凹非寺量子位 | 公众号 QbitAIYann LeCun押注的世界模型路线一匹深圳黑马也已提前落子。他们是视启未来做出全球第一视觉大模型——Grounding DINO、DINO-X——的那支团队。他们并不满足于「看见世界」而是正努力把AI进一步推向「预见未来」的能力边界。现在他们押注的是隐空间世界模型。要知道LeCun为了这条技术路线离开Meta、创办AMI Labs完成10.3亿美元融资创下欧洲史上最大种子轮纪录。不同于主流世界模型预测下一帧画面长什么样隐空间世界模型要求AI在更抽象的表征空间里学习动作和世界状态变化之间的因果规律。5月15日在2026全球人工智能终端展暨第七届深圳国际人工智能展览会举办的「AGI前夜大模型的觉醒时刻」论坛上视启未来创始人张磊更是在主题演讲中直言做世界模型很难做隐空间世界模型更难但我们会知难而进。隐空间世界模型为什么是更难的那条路难在哪里做出来又意味着什么「隐空间世界模型很难但我们一定要做」随着人工智能加速从数字世界走向物理世界智能体面临的核心任务已经变了。不仅要「看见」而且要「预见」——理解因果关系把握时空动态在稀疏反馈与复杂约束下完成规划、决策与学习。强化学习提供了从交互经验中学习的基本范式。看大语言模型这边从ChatGPT应用强化学习到o系列模型以及coding能力的突破本质上都是一系列强化学习算法应用的突破。但物理世界的样本效率低、安全约束严、交互成本高、环境不可重置单纯依赖在线试错的方法难以扩展到真实场景。△AI生成张磊的判断是真正的智能不能只停留在「看到当前状态就输出动作」的层面。如果没有对未来状态的预想、对行动后果的预判智能体就无法在物理世界中持续展开决策链条也难以真正进入现实环境。这正是世界模型的意义所在让AI从经验数据中学习动作、状态与结果之间的因果关系在行动前先「想象」下一步可能发生什么为强化学习提供可扩展的内部预演空间。在张磊看来当前各种世界模型路线都在不同方向上推进得很快。但对于机器人和物理智能而言一个核心挑战仍然存在模型学到的究竟是像素级相关性还是可用于规划和控制的物理规律与因果关系模型在像素层面学习很容易被纹理、光照、背景等细节干扰学习效率低下不利于学习真实的因果关系和物理规律。这正是LeCun说「在输入空间做预测是糟糕的」的原因也是隐空间世界模型的出发点。Latent表征的价值在于它可以把高维、冗余的视觉输入压缩成更抽象的状态表示过滤掉大量与决策无关的像素细节把学习重点放到更本质的变化规律上。可以说表征学习是世界模型中最为核心的问题。换句话说隐空间世界模型不执着于「未来画面长什么样」而更关注「世界状态如何演化」因此更适合学习物理规律和因果关系。但视启发现现有的隐空间方案还差了关键的一步。大多数latent表征虽然脱离了像素却并不真正「理解物体」。如果模型不知道场景里哪些是独立物体、物体之间是什么关系、哪些变化来自视角、哪些变化来自交互那么它要直接在隐空间中学习物理规律难度仍然非常高。原因很简单物理规律本质上并不作用在像素上而是作用在物体、结构和关系上。我们这里也做了张图方便大家理解△AI生成张磊认为latent表征必须具备理解物体的能力才能更好地学习物理规律。视启的解法是把物体理解能力引入latent表征学习中通过2D感知、3D表征、分割和语义理解让latent表征具备「世界由哪些物体构成、它们处于什么空间位置、具有什么语义属性」的基础认知再进一步学习动作驱动下的状态转移和物理演化。通过引入物体理解的结构信息模型可以更高效地对数据进行压缩从海量数据中学到内在的、更为本质的规律。这样模型学习的不再是黑盒式表征而是一个更具对象性、空间性和物理性的结构化latent世界。因此视启将自己的路线称为「视觉原生世界模型」这也是他们和其他隐空间世界模型的关键区别。为了实现真正可落地的物理世界模型张磊认为这类模型需要同时具备三个核心特征Object-Centric以物体为中心。表征不能停留在像素层面要具备对物体的理解能力能够识别世界由哪些对象构成、它们之间如何交互。只有这样模型才有可能从海量数据中学习到更稳定、更可泛化的物理规律而不是停留在表面的视觉相关性上。Action-Aligned跨本体动作对齐。把人手动作、机械臂操作以及不同机器人本体的数据对齐到统一表示空间从而更高效地利用大量人类交互数据帮助机器人更快学会如何与环境互动。Causality-Driven因果驱动。世界模型要学的是「执行某个动作之后世界状态将如何变化」。只有具备这种因果建模能力世界模型才能真正与强化学习结合支持机器人在与环境持续交互中不断提升决策、学习和泛化能力。张磊说视启对方向的判断始终正确只是赛道的热闹程度确实超出了当初的预想。不过这反而印证了视启坚守隐空间路线的前瞻性——在所有人都往像素空间冲的时候视启已经在更难、也更正确的方向上积累了先发优势。从全球第一视觉大模型到视觉原生世界模型张磊对于世界模型的见地并非空穴来风。背后是视启长期构建的以物体为中心的视觉理解能力也是这支团队数年的积累。视启未来其核心团队来自粤港澳大湾区数字经济研究院计算机视觉与机器人研究中心IDEA CVR孵化的DINO-X团队。团队已连续推出DINO、Grounding DINO、DINO-X等代表性工作持续推动开放世界目标检测与物体级视觉理解的发展。Grounding DINO已成为开放集检测的重要里程碑之一而DINO-X则是面向开放世界物体理解的全球领先视觉大模型。今年4月谷歌DeepMind发表的Vision Banana论文中也多处提到视启未来的DINO-X模型。这篇论文的署名作者包括何恺明和谢赛宁在SA-CO/Gold instance segmentation任务上强调DINO-X是zero-shot transfer物体理解的全球SOTA。此外DINO系列论文也广泛被Meta的SAM2/SAM3、阿里的Qwen系列、字节的Seed系列引用。这反映出视觉物体理解基模门槛极高依赖强大的视觉基座大模型预训练能力。自2023年以来视启未来凭借Grounding-DINO与DINO-X系列在开放物体理解榜单上保持了最长的连续领先时间。有趣的是DINO的意思是「恐龙」恐龙也是这个团队各种模型的标志。他们还有一个基于视觉提示做物体检测的模型T-Rex2 ECCV 2024就是恐龙家族的霸王龙。DINO系列解决的核心问题正是Object-Centric世界模型最需要的底层能力让机器真正「看懂」世界由哪些物体构成、它们在哪里、它们之间是什么关系。视启未来的路线更强调面向真实世界交互的Object-Centric表征能力即围绕「物体是什么、在哪里、如何被引用、如何与环境发生关系」建立统一建模能力。在此基础上视启未来不仅在2D物体检测与分割3D物体理解与语义理解上建立了显著优势也持续向3D动作理解延伸形成了从看见物体到理解物体再到理解动作与物体交互的完整能力栈。从这个意义上说视启做世界模型并不是转型而是在其原有技术基础上的顺势延伸。单个模型的成功还能归因于机会那么连续做出Grounding DINO、DINO-X等这样的全球领先物体理解视觉基座大模型更多说明的是团队底层能力已经成型。对一家做基础模型的团队来说这意味着它不仅会「做模型」更掌握了数据组织、预训练范式、能力迁移和任务扩展的系统方法这恰恰是基模训练能力最有说服力的体现。这种能力已经开始在产品上体现。5月15日视启未来联合百度智能云在2026全球人工智能终端展上正式发布EgoTwin——全球最新的高质量Ego人手3D对齐引擎。如果说视觉原生世界模型是视启未来的长期技术路线那么EgoTwin就是这条路线在具身智能数据层面的第一个产品化抓手。EgoTwin直击行业最卡脖子的难题——把人手操作数据转化为机器人能用的训练数据数据采集效率是行业主流方案的3.75倍。更重要的是EgoTwin并不只是一个数据采集工具它一方面把人类Ego操作视频转化为机器人可学习的数据资产另一方面也为世界模型提供Action-Aligned的训练底座成为「数据引擎—模型迭代—本体落地」闭环的第一步。更大的愿景张磊直言世界模型将成为物理世界AI的核心基础设施。在他看来数字世界中大语言模型正在承担类似于OS操作系统的角色底层是GPU算力中间是大语言模型上层是各种各样的Agent。这条路已经被充分验证无论是Coding领域还是其他Agent形态都已经证明走得通。物理世界里同样的范式变化正在发生。只不过物理世界的基础设施除了算力之外还会加入机器人本体。在这一层之上张磊带领的世界模型团队正在打通Learning From Experience的范式机器人在学习过程中可以变得更加自主、更加高效由此获得更强的物理任务技能。英伟达科学家Jim Fan年初说下一个词预测是第一种预训练范式现在我们正在经历第二次范式转变下一个物理状态预测。他预言2026年将被载入史册成为世界模型为机器人技术奠定真正基础的第一年。张磊支持这个判断同时强调一点视觉是物理智能最主要的信息入口也是通向世界模型的关键优势方向。视启未来长期积累的检测、识别、分割、跟踪、3D物体理解3D动作理解与开放世界感知能力不仅让机器更好地「看见」世界也为其进一步建模世界、预演未来、支撑行动提供了坚实基础。世界级目标吸引世界级人才要做世界级的模型首先得有世界级的团队。视启未来创始人兼CEO张磊是这支团队最重要的底色。张磊博士师承中国人工智能奠基人张钹院士并曾长期在计算机科学与人工智能领域世界级专家、美国国家工程院外籍院士沈向洋先生领导下工作。作为 IEEE Fellow他累计发表200余篇顶级会议和期刊论文Google Scholar 总引用已超过7.3万次。他曾在微软亚洲研究院、微软总部研究院及计算机视觉相关产品部门任首席研究员带领研究组从事计算机视觉基础研究及其在大规模图像分析、物体检测、视觉语言多模态理解方面的应用研究成果被广泛用于微软必应搜索及认知服务云计算平台。值得一提的是在张磊进行博士深造之前是国内最早一批参与室内移动机器人研究的人员之一。绕了一个大圈从机器人到计算机视觉再从视觉回到机器人这条轨迹并非偶然而是他对物理世界AI判断的一贯逻辑在驱动。2021年张磊加入IDEA研究院带领团队研发DINO-X视觉大模型为机器赋予物体级理解能力。随后其孵化视启未来将这套能力推向世界模型赛道。视启未来还邀请了张钹院士、沈向洋院士担任科学顾问。团队核心成员主要来自清华大学、微软、腾讯等顶尖高校与国内外科技大厂。据视启透露团队中约50%具有清华背景约20%拥有智能驾驶相关经验80%为90后青年人才100%具备海外或国内头部科技企业经历。近期视启在北京进一步吸引了多位国内机器人和强化学习方向的优秀年轻算法人才加入。他们的主动选择加入本身就是一种投票——投的是视启在世界模型方向上的技术判断也是他们对这支团队能够再创辉煌的信心。做世界模型很难做隐空间世界模型更难。曾经做出世界第一视觉大模型的视启团队正把同样的信念押注在隐空间世界模型上。张磊和他的视启未来正走在将隐空间世界模型贯彻到底、知难而进的路上。

5分钟告别Windows预览版烦恼：OfflineInsiderEnroll终极指南

5分钟告别Windows预览版烦恼：OfflineInsiderEnroll终极指南【免费下载链接】offlineinsiderenroll OfflineInsiderEnroll - A script to enable access to the Windows Insider Program on machines not signed in with Microsoft Account 项目地址: https://git…

2026/5/23 11:30:01 阅读更多

通过taotoken cli一键配置python与nodejs开发环境

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度通过taotoken cli一键配置python与nodejs开发环境在团队协作或个人多项目开发中，管理不同的大模型API密钥与端点配置是…

2026/5/23 11:29:00 阅读更多

Winhance中文版：专业级Windows系统深度优化与定制解决方案

Winhance中文版：专业级Windows系统深度优化与定制解决方案【免费下载链接】Winhance-zh_CN A Chinese version of Winhance. C# application designed to optimize and customize your Windows experience. 项目地址: https://gitcode.com/gh_mirrors/wi/Winhanc…

2026/5/23 11:27:19 阅读更多

5个实战技巧：Unlock-Music浏览器端音乐解密技术深度解析

5个实战技巧：Unlock-Music浏览器端音乐解密技术深度解析【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库： 1. https://github.com/unlock-music/unlock-music ；2. https://git.unlock-music.dev/um/web 项目地址: htt…

2026/5/23 12:22:08 阅读更多

从游戏开发到数据分析：线段树（Segment Tree）在Python中的那些实用场景

线段树在游戏开发与数据分析中的实战应用在游戏开发中，我们经常需要处理大量动态变化的数值区间，比如玩家血量、技能冷却时间或是地图上的Buff区域。传统方法可能会使用数组遍历或简单的循环来更新和查询这些数据，但随着游戏规模的扩大&…

2026/5/23 12:21:47 阅读更多

SSH登录频发异常的根因分析与七层认证链优化

1. 这不是端口问题，是信任链正在崩塌 “SSH登录异常频发”这八个字，我去年在三台不同客户的生产服务器上都见过——不是报错，不是拒绝连接，而是那种让人头皮发麻的“卡顿三秒后断开”“输完密码没反应直接重连”“偶尔能进&#x…

2026/5/23 12:21:47 阅读更多

Markdown Here：浏览器中的Markdown转换与富文本邮件解决方案

Markdown Here：浏览器中的Markdown转换与富文本邮件解决方案【免费下载链接】markdown-here Google Chrome, Firefox, and Thunderbird extension that lets you write email in Markdown and render it before sending. 项目地址: https://gitcode.com/gh_mirro…

2026/5/23 12:20:47 阅读更多

零代码 AI Agent 适配行业清单

适配度高（优先选用） 互联网 / 传媒文案创作、内容审核、舆情整理、社群运营、短视频脚本批量产出，流程标准化易配置。教育培训学员答疑、课程资料整理、作业批改、课时统计、招生信息汇总，重复事务可全自动处理。商贸零售订单…

2026/5/23 12:19:26 阅读更多

SVM与KNN在糖尿病临床初筛中的实战应用

1. 项目概述：当血糖数据遇上机器学习，为什么SVM和KNN是临床初筛的黄金搭档？ “Diabetes Classification Model with SVM and KNN models”——这个标题乍看像教科书里的课后习题，但在我过去八年参与的23个基层医疗AI辅助项目里&am…

2026/5/23 12:19:05 阅读更多

红黑树完全指南：从五条性质到完整插入删除实现

引言在前面的树系列中，我们学习了二叉搜索树（BST）和 AVL 树。AVL 树通过严格的平衡条件（|BF| ≤ 1）保证 O(log n) 的性能，但代价是删除操作可能触发 O(log n) 次旋转。红黑树（Red-Black Tree&am…

2026/5/23 0:01:37 阅读更多

黎曼猜想：哲学 × 数学思维范式全链条

黎曼猜想：哲学数学思维范式全链条华夏之光永存｜七大数学猜想思维范式全链条第二篇开篇黎曼猜想被公认为数学史上最伟大的未解难题。希尔伯特曾说：“如果我沉睡百年后醒来，第一个问题就是：黎曼猜想证明了吗&…

2026/5/23 0:02:38 阅读更多

在Nodejs后端服务中集成稳定可靠的大模型能力

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度在Nodejs后端服务中集成稳定可靠的大模型能力应用场景类，针对需要构建智能对话或内容生成功能的后端工程师&#xff0…

2026/5/23 0:03:18 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/22 17:05:13 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/22 16:54:23 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/23 4:55:00 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/22 14:41:35 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/22 11:03:47 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…