说实话那天下午我坐在发布会现场听到李想开口第一句话就愣住了——他说今天的智能手机和智能汽车其实都不智能。台下很多人跟我一样先是愣了一下然后才慢慢反应过来没错我们喊了这么多年的“智能”骨子里还是一套功能驱动的机器逻辑。过去这十年行业提到智能汽车就三件事软件定义硬件、能联网、能OTA升级。可现在我们回过头看你手里的车真的变聪明了吗就拿辅助驾驶来说遇到稍微复杂点的突发状况它的常规操作是直接“退出”方向盘甩回给你——这操作完全合法合规但你敢说它不危险现在的智驾只会前进、左拐、右拐不会倒车也不会靠边停车。赶上你着急赶路走一段特别绕的窄路大部分人还是默默关掉智驾自己开因为那个通行效率实在让人着急。这些毛病不是靠一次次OTA打个补丁就能修好的是车从被设计出来的那一刻底层架构就写死了。所以理想这次给出的解法不是继续缝缝补补而是直接用“具身智能”重写底层架构。为了让大伙儿真明白什么是具身智能以及它跟造车到底有什么关系理想搞了一场“Livis Day”李想带着团队花了一个半小时把自研芯片、自研模型、全新交互、具身智能的定义一股脑全摊开了。发布会第二天我又挤进一个小型媒体群访听CTO谢炎和基座模型负责人詹锟聊了更多没来得及在台上说的话。先说那个最关键的东西——模型是具身智能的“大脑”。理想把这个大脑拆成了两块一块叫语言智能负责听懂你说的话推演接下来该怎么办另一块叫机器智能负责看清真实的物理世界然后精准地手脚并用去执行。语言智能这边分云端和车端两个模型。云端的那个叫马赫Mind-Pro詹锟他们给它跑了一圈权威测试在Agent专项评测里综合性能已经把不少主流大模型甩在身后了。让我印象特别深的是它的工程效率靠着一种Token压缩技术任务完成率一点没降可整体Token的消耗平均降了38%工具调用来回倒手的冗余轮次少了47%推理速度峰值能跑到208 token每秒效率是同级别主流Agent模型的两倍还多。车端的叫马赫Mind-Edge这可是个狠角色。它不是把云端模型砍几刀丢过来的“阉割版”而是完全在本地运行的原生智能体。不用联网数据压根不上传全天候主动感知、跟你交互、自主控车、多模态问答全都在你自己的车里悄无声息地完成。如果说上面两块是负责“思考”那真正管“行动”的就是马赫VLA。发布会上放的那些视频说实话看得我手心微微冒汗挖掘机的巨大爪臂突然伸出来车子能自己从容减速等着爪臂一收它马上提速通过路口左转对向突然来车它唰的一下切进倒挡让开然后再切回来继续走还有穿着黄马甲的保安在工地前用手势比划车子居然能看懂“停”和“行”的手势……这种在老司机眼里都算高难度的操作它不是靠程序写死的是真学会了。这背后靠的是什么双马赫M100芯片给了2560TOPS的算力模仿学习的数据量多了50%强化学习数据量直接暴增15倍行泊一体的模型参数量大了10倍TPS加码了15倍。而且理想把架构彻底翻新了用一个原生多模态MoE大模型取代了过去感知、预测、规划各管各的模块拼盘。让“看见、理解、思考、行动”从一开始就在同一个框架里长在一起而不是先看见再琢磨再执行。视觉上也有个王炸叫全新的3D ViT视觉架构。这东西的特别之处在于它不止能看懂环境的3D结构还能看懂物体的属性、纹理、类型——因为它保留了完整的RGB信息没有一丁点损耗。更厉害的是它能做动静分离在3D环境中精确判断目标是动还是静。詹锟打了一个特别妙的比方你遮住一只眼因为从小习惯了双眼训练大脑已经把那种能力固化下来了单眼也能看出立体感。3D ViT就是同一套思路用高维三维空间数据去训练让一个单目摄像头也能构建出完整的三维世界。现场有个环节理想直接调用了车载系统的实时视角大屏幕上瞬间就重建出了整个发布会的三维场景底下坐着的人的姿态、位置甚至场地后排墙上的文字全被精准识别出来。那一刻我真切感觉到这辆车开始“看见”了。理想在赶超特斯拉这件事上说得也很实诚。詹锟承认国内第一梯队之间差距可能变小了但大家跟特斯拉的距离并没有缩小特斯拉还是很强。追赶分两层第一层是基础体验安全感、效率、舒适度能不能跟FSD拉到同一水平线第二层是独有能力比如特斯拉会礼让特殊车辆有极窄通行的变态精准度还能识别交警手势指挥。但他同时也说随着芯片性能进一步释放纯视觉的帧率往15Hz、20Hz甚至更高走加上3D ViT带来的更完整视觉表征2026年年底追上FSD V14“是有机会的”。不过更让我触动的是他说的护城河理论。詹锟的原话是只有芯片、基础设施、模型全栈可控迁移成本才足够高。你如果只做算法中美之间人才流动那么快很容易就被带走了。但如果你是全栈的迁移代价极高而且很难。他还补了一句很多人容易忽略的得下苦功夫比如精细地洗数据这些活儿不高大上但却是真正的护城河。说到全栈就一定得提那颗“心脏”——芯片。CTO谢炎拿出马赫M100的时候给它的定义是“全球首款动态数据流AI芯片”。这背后有个特别有意思的故事四年前立项的时候理想就给这颗芯片定了一个几乎不讲理的目标——必须做到外购芯片的4倍性能否则自研根本没意义同时还得帮公司省钱。团队花了半年做分析得出一个清醒得吓人的结论要想超过英伟达照着英伟达的路子走根本行不通。人家起步早了几十年资源是你的几个数量级你在同一条跑道上跟博尔特赛跑人家还比你早跑两秒你凭什么超唯一的机会是跑另一条路。这条路就是数据流架构。传统的冯·诺依曼架构统治了七十年它把计算抽象成一条顺序执行的指令队列为了维持这玩意儿芯片得堆天量的晶体管去做缓存、调度、分支预测AI时代一上来这些管理开销会跟着爆炸式增长。而AI的计算天生就是并行的数据是张量关系是确定的数据流动路径一清二楚它是一张数据依赖图不是一条指令队列。马赫M100的设计核心就是拆掉那个中央式的指令队列和一堆管理开销让数据的流动来驱动计算数据流到哪儿计算就在哪儿触发。架构本身就是为AI原生设计的。参数上看5纳米车规级工艺单芯片1280TOPS算力实际运行效率超过82%这在基于GPU架构的芯片上是极难达到的。更夸张的是通用性测试在马赫M100上跑通千问3.5 35B的大模型跟一台卖4万块的NVIDIA DGX Spark桌面超算比prefill速度是对方的2.7倍decode速度是1.5倍。一颗装在车里的芯片跑赢了4万块的桌面超算。谢炎在台上说了一句野心勃勃的话冯·诺依曼架构用70年推动了通用计算的辉煌今天我们从马赫M100起步希望用数据流架构接过这一棒再推AI计算辉煌70年。当越来越多车企宣布自研芯片时谢炎私下里跟我说了他的评判标准一是全量的车能不能真正用上能不能快速上车能不能跑最新一代模型并且部署到所有车上二是能不能持续迭代做一代不算什么你得有第二代、第三代。模型、芯片都有了那具身智能时代的车到底该长什么样理想给出了一个新公式具身智能汽车电动车 职业司机 AI计算机 生活助手。这个公式在发布会上那个Agent现场演示里被表现得淋漓尽致。最让我头皮发麻的一个场景是“李想要去接家人”。产品经理对着车一口气说了一段复杂到变态的指令“老婆在蓝色港湾购物老大在赵全营学美术老二在望京学芭蕾老三在中关村学乐高老四在马泉营打羽毛球。先接老大再接老四再接老三最后接上老二去接老婆晚上要给老四在三里屯过生日。” 五个人的位置六个不同地点一个完全打乱的接送顺序我光听着脑子就宕机了。可系统几秒钟就把答案抛出来所有地址、所有顺序一个没错。这真不是提前写好的脚本是真正运行在模型上的Agent。最后的OTA规划也摆出来了7月要把智驾效率整体提升30%会上线出行导游相关的Agent技能9月车子学会窄路会车、倒车让行Agent能连接你的手机和电脑还会多一个超级CarPlay12月Livis的反应速度要达到0.2秒比人类快56%……看到这儿我总算明白了开头那个问题具身智能跟造车到底有什么关系如果你只是想造一辆跑得更快、坐得更舒服的车那确实用不着具身智能。但如果你想造一个能保护你安全还能独立替你完成任务的伙伴你必须从架构的底层把一切都重新来过。马赫M100是心脏3D ViT是眼睛自研马赫VLA是大脑全线控底盘是手脚自研星环OS是神经系统……它们不是一个个独立卖给你的零件是同一个生命体上长在一起的器官。李想在发布会结尾说的话后来我一直记得过去10年我们创造了一个移动的家在第二个10年我们会给车和家赋予生命。理想不是在造一辆更好的车它是在试着创造一个全新的物种定义下一个时代的范式。
李想一个半小时讲透真正的具身智能
发布时间:2026/6/29 19:34:08
说实话那天下午我坐在发布会现场听到李想开口第一句话就愣住了——他说今天的智能手机和智能汽车其实都不智能。台下很多人跟我一样先是愣了一下然后才慢慢反应过来没错我们喊了这么多年的“智能”骨子里还是一套功能驱动的机器逻辑。过去这十年行业提到智能汽车就三件事软件定义硬件、能联网、能OTA升级。可现在我们回过头看你手里的车真的变聪明了吗就拿辅助驾驶来说遇到稍微复杂点的突发状况它的常规操作是直接“退出”方向盘甩回给你——这操作完全合法合规但你敢说它不危险现在的智驾只会前进、左拐、右拐不会倒车也不会靠边停车。赶上你着急赶路走一段特别绕的窄路大部分人还是默默关掉智驾自己开因为那个通行效率实在让人着急。这些毛病不是靠一次次OTA打个补丁就能修好的是车从被设计出来的那一刻底层架构就写死了。所以理想这次给出的解法不是继续缝缝补补而是直接用“具身智能”重写底层架构。为了让大伙儿真明白什么是具身智能以及它跟造车到底有什么关系理想搞了一场“Livis Day”李想带着团队花了一个半小时把自研芯片、自研模型、全新交互、具身智能的定义一股脑全摊开了。发布会第二天我又挤进一个小型媒体群访听CTO谢炎和基座模型负责人詹锟聊了更多没来得及在台上说的话。先说那个最关键的东西——模型是具身智能的“大脑”。理想把这个大脑拆成了两块一块叫语言智能负责听懂你说的话推演接下来该怎么办另一块叫机器智能负责看清真实的物理世界然后精准地手脚并用去执行。语言智能这边分云端和车端两个模型。云端的那个叫马赫Mind-Pro詹锟他们给它跑了一圈权威测试在Agent专项评测里综合性能已经把不少主流大模型甩在身后了。让我印象特别深的是它的工程效率靠着一种Token压缩技术任务完成率一点没降可整体Token的消耗平均降了38%工具调用来回倒手的冗余轮次少了47%推理速度峰值能跑到208 token每秒效率是同级别主流Agent模型的两倍还多。车端的叫马赫Mind-Edge这可是个狠角色。它不是把云端模型砍几刀丢过来的“阉割版”而是完全在本地运行的原生智能体。不用联网数据压根不上传全天候主动感知、跟你交互、自主控车、多模态问答全都在你自己的车里悄无声息地完成。如果说上面两块是负责“思考”那真正管“行动”的就是马赫VLA。发布会上放的那些视频说实话看得我手心微微冒汗挖掘机的巨大爪臂突然伸出来车子能自己从容减速等着爪臂一收它马上提速通过路口左转对向突然来车它唰的一下切进倒挡让开然后再切回来继续走还有穿着黄马甲的保安在工地前用手势比划车子居然能看懂“停”和“行”的手势……这种在老司机眼里都算高难度的操作它不是靠程序写死的是真学会了。这背后靠的是什么双马赫M100芯片给了2560TOPS的算力模仿学习的数据量多了50%强化学习数据量直接暴增15倍行泊一体的模型参数量大了10倍TPS加码了15倍。而且理想把架构彻底翻新了用一个原生多模态MoE大模型取代了过去感知、预测、规划各管各的模块拼盘。让“看见、理解、思考、行动”从一开始就在同一个框架里长在一起而不是先看见再琢磨再执行。视觉上也有个王炸叫全新的3D ViT视觉架构。这东西的特别之处在于它不止能看懂环境的3D结构还能看懂物体的属性、纹理、类型——因为它保留了完整的RGB信息没有一丁点损耗。更厉害的是它能做动静分离在3D环境中精确判断目标是动还是静。詹锟打了一个特别妙的比方你遮住一只眼因为从小习惯了双眼训练大脑已经把那种能力固化下来了单眼也能看出立体感。3D ViT就是同一套思路用高维三维空间数据去训练让一个单目摄像头也能构建出完整的三维世界。现场有个环节理想直接调用了车载系统的实时视角大屏幕上瞬间就重建出了整个发布会的三维场景底下坐着的人的姿态、位置甚至场地后排墙上的文字全被精准识别出来。那一刻我真切感觉到这辆车开始“看见”了。理想在赶超特斯拉这件事上说得也很实诚。詹锟承认国内第一梯队之间差距可能变小了但大家跟特斯拉的距离并没有缩小特斯拉还是很强。追赶分两层第一层是基础体验安全感、效率、舒适度能不能跟FSD拉到同一水平线第二层是独有能力比如特斯拉会礼让特殊车辆有极窄通行的变态精准度还能识别交警手势指挥。但他同时也说随着芯片性能进一步释放纯视觉的帧率往15Hz、20Hz甚至更高走加上3D ViT带来的更完整视觉表征2026年年底追上FSD V14“是有机会的”。不过更让我触动的是他说的护城河理论。詹锟的原话是只有芯片、基础设施、模型全栈可控迁移成本才足够高。你如果只做算法中美之间人才流动那么快很容易就被带走了。但如果你是全栈的迁移代价极高而且很难。他还补了一句很多人容易忽略的得下苦功夫比如精细地洗数据这些活儿不高大上但却是真正的护城河。说到全栈就一定得提那颗“心脏”——芯片。CTO谢炎拿出马赫M100的时候给它的定义是“全球首款动态数据流AI芯片”。这背后有个特别有意思的故事四年前立项的时候理想就给这颗芯片定了一个几乎不讲理的目标——必须做到外购芯片的4倍性能否则自研根本没意义同时还得帮公司省钱。团队花了半年做分析得出一个清醒得吓人的结论要想超过英伟达照着英伟达的路子走根本行不通。人家起步早了几十年资源是你的几个数量级你在同一条跑道上跟博尔特赛跑人家还比你早跑两秒你凭什么超唯一的机会是跑另一条路。这条路就是数据流架构。传统的冯·诺依曼架构统治了七十年它把计算抽象成一条顺序执行的指令队列为了维持这玩意儿芯片得堆天量的晶体管去做缓存、调度、分支预测AI时代一上来这些管理开销会跟着爆炸式增长。而AI的计算天生就是并行的数据是张量关系是确定的数据流动路径一清二楚它是一张数据依赖图不是一条指令队列。马赫M100的设计核心就是拆掉那个中央式的指令队列和一堆管理开销让数据的流动来驱动计算数据流到哪儿计算就在哪儿触发。架构本身就是为AI原生设计的。参数上看5纳米车规级工艺单芯片1280TOPS算力实际运行效率超过82%这在基于GPU架构的芯片上是极难达到的。更夸张的是通用性测试在马赫M100上跑通千问3.5 35B的大模型跟一台卖4万块的NVIDIA DGX Spark桌面超算比prefill速度是对方的2.7倍decode速度是1.5倍。一颗装在车里的芯片跑赢了4万块的桌面超算。谢炎在台上说了一句野心勃勃的话冯·诺依曼架构用70年推动了通用计算的辉煌今天我们从马赫M100起步希望用数据流架构接过这一棒再推AI计算辉煌70年。当越来越多车企宣布自研芯片时谢炎私下里跟我说了他的评判标准一是全量的车能不能真正用上能不能快速上车能不能跑最新一代模型并且部署到所有车上二是能不能持续迭代做一代不算什么你得有第二代、第三代。模型、芯片都有了那具身智能时代的车到底该长什么样理想给出了一个新公式具身智能汽车电动车 职业司机 AI计算机 生活助手。这个公式在发布会上那个Agent现场演示里被表现得淋漓尽致。最让我头皮发麻的一个场景是“李想要去接家人”。产品经理对着车一口气说了一段复杂到变态的指令“老婆在蓝色港湾购物老大在赵全营学美术老二在望京学芭蕾老三在中关村学乐高老四在马泉营打羽毛球。先接老大再接老四再接老三最后接上老二去接老婆晚上要给老四在三里屯过生日。” 五个人的位置六个不同地点一个完全打乱的接送顺序我光听着脑子就宕机了。可系统几秒钟就把答案抛出来所有地址、所有顺序一个没错。这真不是提前写好的脚本是真正运行在模型上的Agent。最后的OTA规划也摆出来了7月要把智驾效率整体提升30%会上线出行导游相关的Agent技能9月车子学会窄路会车、倒车让行Agent能连接你的手机和电脑还会多一个超级CarPlay12月Livis的反应速度要达到0.2秒比人类快56%……看到这儿我总算明白了开头那个问题具身智能跟造车到底有什么关系如果你只是想造一辆跑得更快、坐得更舒服的车那确实用不着具身智能。但如果你想造一个能保护你安全还能独立替你完成任务的伙伴你必须从架构的底层把一切都重新来过。马赫M100是心脏3D ViT是眼睛自研马赫VLA是大脑全线控底盘是手脚自研星环OS是神经系统……它们不是一个个独立卖给你的零件是同一个生命体上长在一起的器官。李想在发布会结尾说的话后来我一直记得过去10年我们创造了一个移动的家在第二个10年我们会给车和家赋予生命。理想不是在造一辆更好的车它是在试着创造一个全新的物种定义下一个时代的范式。