杰西卡 发自 凹非寺量子位 | 公众号 QbitAIAI行业最稀缺的抢手货变了。李飞飞提出“空间智能”后行业正在形成一个越来越明显的趋势判断大模型之后世界模型、具身智能正成为资本和产业关注的新焦点。然而AI开始转向理解并作用于真实的物理世界之时一个尴尬的现实也随之浮现训练这些模型所需的真实物理世界交互数据极度稀缺——缺到甚至有业内观点认为需求与供给之间可能存在近十万倍的差距。因为过去的大模型靠海量文本和图片就能完成语言理解与生成但具身智能需要的是“决策→行动→反馈”的完整链条——这些静态、缺乏因果和交互的数据很难再满足需求。行业迫切需要一种全新的数据来自真实物理世界、带有因果逻辑、能持续产出的交互数据。于是高质量的物理世界数据成为当下战略级的稀缺资源而能为行业持续、低成本、大规模生产物理世界数据的玩家也逐渐被推上风口。有意思的是业内人士告诉量子位AI时代最大的物理世界数据入口之一很可能正在从一个很多人意想不到的行业里诞生那就是出行平台。你可能并不知晓平日里常用的出行服务平台除了出行服务之外正在用数据新业务“赚外快”。出行平台流行起用数据“赚外快”出行服务行业最近逐渐流行起一门新的生意手握海量真实道路一手数据源的平台们正通过数据资产化、服务化等方式开辟第二增长曲线。而且这些平台中已经有玩家成功变现初步验证了商业化路径的可行性。最先对外披露具体数据的是广汽集团旗下的出行服务平台——如祺出行。如祺出行在2025年财报中披露以AI数据业务为主要收入来源的技术服务板块已成为公司增长最快的板块。而这个AI数据业务指的是如祺出行的数据业务板块以下简称“如祺数据”最早布局于2023年。彼时如祺出行在2023年5月获批了乙级测绘资质开始将那些搭载激光雷达、高精度惯导、周视与环视摄像头等传感器的智能驾驶数据采集车投入常态化运营。这些车辆在提供出行服务的同时也在合规采集真实的驾驶和道路数据。而如祺数据也在采集数据的过程中不断延伸其数据服务能力。直到最近如祺数据首次对外完整披露了其AI数据资产及能力版图。公开信息显示其数据资产已覆盖标注数据、行为数据、合成数据及多模态训练数据集四大类涵盖从原始采集到加工交付的全链条。这其中标注数据是基础行为数据则记录了驾驶员在实际道路环境中的操作决策合成数据用于补充长尾场景多模态训练数据集则覆盖图像、文本、音频与视频可以直接用于大模型的垂类微调。规模上如祺数据已搭建起一张覆盖面可观的数据采集网络。截至2026年5月公司在广州、上海、重庆、沈阳等城市部署了超过300辆智能驾驶数据采集车。通过近三年的常态化运营这些车辆的日均产出已经达到1600小时、130TB平台亦累计沉淀出千万级的高价值驾驶场景片段。这些片段背后本身就是完整的真实世界交互过程。从这个角度看平台产生的数据更像是在持续生产物理世界的“切片”。而规模之外商业化进展才是真正检验其模式可行性的关键。在如祺财报中2025年以AI数据服务为主要收入来源的技术服务板块录得营收1.6亿元同比大增487.4%。这一增速说明市场对高质量物理世界数据的需求正在快速释放。如祺数据的客户结构也能验证这一结论。据介绍公司服务目前已覆盖智能驾驶、具身智能、大模型、消费电子、医疗等多个领域腾讯、小马智行、理想、火山引擎、百度智能云、广汽集团等头部企业都是其客户。也就是说从出行服务衍生出的数据服务已经具备跨行业解决实际需求的能力并且能跑通从数据采集、加工到商业化交付的完整闭环。随之而来的变化是外界更新了对如祺这类出行平台的认知。具备全链条数据服务能力的如祺不再只是一家出行服务商也不单单是传统的数据标注服务商而是在向“数据集全栈能力”的综合服务商升级。而这种“数据集全栈能力”的闭环能力很可能也会成为下一代AI中不可或缺的底层基础设施之一。出行平台为什么突然造就了AI基础设施想更好理解出行平台的身份转变其实可以将其拆解为两个更本质的问题为什么AI行业对物理世界数据如此渴求以及为什么出行平台恰恰能填补这个缺口一切要从李飞飞对世界模型的定义说起。她认为当前主流的大语言模型存在一个致命缺陷就是缺乏“空间智能”——即对三维物理世界进行感知、推理和行动的能力。因此李飞飞倡导构建一种全新的AI系统让机器能像人类一样理解三维物理世界的运行法则并完成互动。这套系统就是她所说的“世界模型”。而世界模型需要具备三个最核心的标准生成性、多模态性、交互性。这意味着训练下一代AI所需的数据必须同时具备这三个特征尤其是“交互性”——数据不能只是被动的视觉呈现还必须包含“动作-反馈”闭环的完整因果链条。但问题在于当前行业能够稳定获取的物理世界交互数据远远无法满足训练需求。因为传统的数据供给方式主要有三种且各有局限其一是从互联网上爬取公开图片和视频这些数据大多是静态的、缺乏交互信息其二是在实验室或仿真环境中人工搭建场景成本相对高、规模较小其三是众包采集不过数据的质量和一致性有时难以保证。短期内三种方式都难以持续、大规模地产出带有因果逻辑的交互数据。这正是当前行业面临的核心瓶颈。高质量、高保真、带交互标签的物理世界数据极度匮乏需求与供给之间存在巨大缺口。在这种背景下出行赛道恰恰具备生产、积累这类高价值数据的天然优势。与传统的数据供给方式不同出行平台的数据采集逻辑是嵌入真实运营。每一辆数据采集车本质上都是一个移动的感知终端在完成日常出行服务的同时同步记录“驾驶员决策—车辆响应—环境反馈”的完整交互链条。这种闭环数据天然具备多模态对齐、时序连续和因果逻辑的特征。用如祺对外展示的泊车场景举例如祺数据不仅会记录3D障碍物的位置信息还会同步采集汽车底盘的CAN信号反映车辆状态如方向盘转角、油门刹车、毫米波雷达回波、激光点云与摄像头视频。这些多模态数据围绕泊车场景形成了“行为驾驶员操作-状态车辆响应-环境周围反馈”的联合数据集。在训练AI时这类数据不仅能告诉模型“是什么”还能帮助模型理解“为什么”比如为什么要避让、如何判断车位可用性等需要物理常识和因果推理的任务。有长期关注AI大模型训练的分析人士告诉量子位这类具有完整推理、决策和反馈链条的数据就是训练空间智能模型的“黄金数据矿”。如祺数据也是基于这种独特的数据源得以系统性地构建其全链条服务能力。技术层面如祺数据自研的OCC自动化标注算法采用同源底图与自动化算法可减少90%人工标注时间交付准确率超98%。其合成数据模块可一键生成雨、雾、雪、夜等长尾场景弥补真实采集盲区多模态数据集则覆盖图像、文本、音频与视频可以直接支持大模型的垂类微调。这套能力的本质是将其在自动驾驶领域验证过的数据工程化经验——从合规采集、规模化清洗、精准标注到合成增强——打包成标准化产品。客户可以“开箱即用”无需从零搭建底层采集与处理能力就能直接获取经过深度加工的标准化数据集与工具链。在这一点上如祺数据和Scale AI的逻辑有点类似不仅提供数据还提供让客户“更懂数据、更高效用数据”的工具与方法论从而降低高质量物理数据的使用门槛提升客户的模型迭代效率。这在一定程度上降低了真实物理数据的使用门槛也让数据能力的适用范围能从自动驾驶扩展到具身智能、大模型、消费电子、医疗等多个领域。也可以说规模和能力只是基础而出行平台真正的想象空间更在于它以场景为原点、向更多物理世界场景泛化的潜力。这也是AI发展历程中一再被证明的结论得“场景”者得天下。得“场景”者得天下走进物理世界后AI行业的底层逻辑正在变化——AI的竞争正在从算法转向场景。正如移动互联网催生了基于位置的服务LBS数据金矿云计算成为了数字经济的通用基建。在AI迈向“空间智能”的当下那些能持续、低成本产出真实物理世界交互数据的「场景」也正成为新时代最核心的基础设施。在这一背景下越来越多人开始意识到场景可能比算法更稀缺。因为算法可以被复现但一个真实、高频、且能产生闭环交互数据的物理场景却极难被复制或搬运。而数据本质上其实是场景的“溢出”拥有场景就拥有了持续产生数据飞轮的可能性。出行平台就是这样一个几乎堪称完美的“元场景”它覆盖了海量的公共道路空间涉及持续的人机共驾决策每天发生数以亿计的交互事件。这些要素叠加在一起构成了一个天然的数据生产系统。并且出行平台采用的“业务即采集”模式还在成本上天然具备明显优势。传统的专业数据采集需要投入专门的采集车、专门的驾驶员、专门的场地成本高昂规模化难上加难。但像如祺出行的采集车本身就是网约车在提供服务的同时完成数据采集边际成本被大幅摊薄。更重要的是这种数据能力还可以从驾驶场景向更广泛的物理世界延伸。据接近如祺出行的人士透露该公司正尝试将“人-车-环境”的交互数据能力泛化至更多应用领域例如具身智能在车后服务场景包括洗车、换电、维保、清理等。车后服务场景作为出行场景的一部分是如祺出行最擅长、数据积累最深的领域如祺可以自然地切入形成真实服务闭环。而在这些场景中机器人需要理解的避障、路径规划、精细操作等底层逻辑和自动驾驶有高度的数据同构性。这种“低成本、高交互”的数据生产模式一旦在一个垂直场景跑通就具备了成为行业标配的潜力。△图片由AI生成一个更长期的趋势是未来那些拥有深厚物理场景运营经验的企业其核心资产可能不仅是服务本身更是其业务过程中持续产生的、高价值的场景数据。这些数据经过系统性的治理与产品化或许可以反哺乃至重塑AI产业。就像出行平台这样的巨型物理世界接口一样在C端平台仍是运人的服务商而在B端出行平台的身份已经进化成为AI理解并进入真实世界的、至关重要的物理数据入口。
得场景者得AI天下,出行赛道跑出了一家值得关注的数据玩家
发布时间:2026/5/22 20:22:23
杰西卡 发自 凹非寺量子位 | 公众号 QbitAIAI行业最稀缺的抢手货变了。李飞飞提出“空间智能”后行业正在形成一个越来越明显的趋势判断大模型之后世界模型、具身智能正成为资本和产业关注的新焦点。然而AI开始转向理解并作用于真实的物理世界之时一个尴尬的现实也随之浮现训练这些模型所需的真实物理世界交互数据极度稀缺——缺到甚至有业内观点认为需求与供给之间可能存在近十万倍的差距。因为过去的大模型靠海量文本和图片就能完成语言理解与生成但具身智能需要的是“决策→行动→反馈”的完整链条——这些静态、缺乏因果和交互的数据很难再满足需求。行业迫切需要一种全新的数据来自真实物理世界、带有因果逻辑、能持续产出的交互数据。于是高质量的物理世界数据成为当下战略级的稀缺资源而能为行业持续、低成本、大规模生产物理世界数据的玩家也逐渐被推上风口。有意思的是业内人士告诉量子位AI时代最大的物理世界数据入口之一很可能正在从一个很多人意想不到的行业里诞生那就是出行平台。你可能并不知晓平日里常用的出行服务平台除了出行服务之外正在用数据新业务“赚外快”。出行平台流行起用数据“赚外快”出行服务行业最近逐渐流行起一门新的生意手握海量真实道路一手数据源的平台们正通过数据资产化、服务化等方式开辟第二增长曲线。而且这些平台中已经有玩家成功变现初步验证了商业化路径的可行性。最先对外披露具体数据的是广汽集团旗下的出行服务平台——如祺出行。如祺出行在2025年财报中披露以AI数据业务为主要收入来源的技术服务板块已成为公司增长最快的板块。而这个AI数据业务指的是如祺出行的数据业务板块以下简称“如祺数据”最早布局于2023年。彼时如祺出行在2023年5月获批了乙级测绘资质开始将那些搭载激光雷达、高精度惯导、周视与环视摄像头等传感器的智能驾驶数据采集车投入常态化运营。这些车辆在提供出行服务的同时也在合规采集真实的驾驶和道路数据。而如祺数据也在采集数据的过程中不断延伸其数据服务能力。直到最近如祺数据首次对外完整披露了其AI数据资产及能力版图。公开信息显示其数据资产已覆盖标注数据、行为数据、合成数据及多模态训练数据集四大类涵盖从原始采集到加工交付的全链条。这其中标注数据是基础行为数据则记录了驾驶员在实际道路环境中的操作决策合成数据用于补充长尾场景多模态训练数据集则覆盖图像、文本、音频与视频可以直接用于大模型的垂类微调。规模上如祺数据已搭建起一张覆盖面可观的数据采集网络。截至2026年5月公司在广州、上海、重庆、沈阳等城市部署了超过300辆智能驾驶数据采集车。通过近三年的常态化运营这些车辆的日均产出已经达到1600小时、130TB平台亦累计沉淀出千万级的高价值驾驶场景片段。这些片段背后本身就是完整的真实世界交互过程。从这个角度看平台产生的数据更像是在持续生产物理世界的“切片”。而规模之外商业化进展才是真正检验其模式可行性的关键。在如祺财报中2025年以AI数据服务为主要收入来源的技术服务板块录得营收1.6亿元同比大增487.4%。这一增速说明市场对高质量物理世界数据的需求正在快速释放。如祺数据的客户结构也能验证这一结论。据介绍公司服务目前已覆盖智能驾驶、具身智能、大模型、消费电子、医疗等多个领域腾讯、小马智行、理想、火山引擎、百度智能云、广汽集团等头部企业都是其客户。也就是说从出行服务衍生出的数据服务已经具备跨行业解决实际需求的能力并且能跑通从数据采集、加工到商业化交付的完整闭环。随之而来的变化是外界更新了对如祺这类出行平台的认知。具备全链条数据服务能力的如祺不再只是一家出行服务商也不单单是传统的数据标注服务商而是在向“数据集全栈能力”的综合服务商升级。而这种“数据集全栈能力”的闭环能力很可能也会成为下一代AI中不可或缺的底层基础设施之一。出行平台为什么突然造就了AI基础设施想更好理解出行平台的身份转变其实可以将其拆解为两个更本质的问题为什么AI行业对物理世界数据如此渴求以及为什么出行平台恰恰能填补这个缺口一切要从李飞飞对世界模型的定义说起。她认为当前主流的大语言模型存在一个致命缺陷就是缺乏“空间智能”——即对三维物理世界进行感知、推理和行动的能力。因此李飞飞倡导构建一种全新的AI系统让机器能像人类一样理解三维物理世界的运行法则并完成互动。这套系统就是她所说的“世界模型”。而世界模型需要具备三个最核心的标准生成性、多模态性、交互性。这意味着训练下一代AI所需的数据必须同时具备这三个特征尤其是“交互性”——数据不能只是被动的视觉呈现还必须包含“动作-反馈”闭环的完整因果链条。但问题在于当前行业能够稳定获取的物理世界交互数据远远无法满足训练需求。因为传统的数据供给方式主要有三种且各有局限其一是从互联网上爬取公开图片和视频这些数据大多是静态的、缺乏交互信息其二是在实验室或仿真环境中人工搭建场景成本相对高、规模较小其三是众包采集不过数据的质量和一致性有时难以保证。短期内三种方式都难以持续、大规模地产出带有因果逻辑的交互数据。这正是当前行业面临的核心瓶颈。高质量、高保真、带交互标签的物理世界数据极度匮乏需求与供给之间存在巨大缺口。在这种背景下出行赛道恰恰具备生产、积累这类高价值数据的天然优势。与传统的数据供给方式不同出行平台的数据采集逻辑是嵌入真实运营。每一辆数据采集车本质上都是一个移动的感知终端在完成日常出行服务的同时同步记录“驾驶员决策—车辆响应—环境反馈”的完整交互链条。这种闭环数据天然具备多模态对齐、时序连续和因果逻辑的特征。用如祺对外展示的泊车场景举例如祺数据不仅会记录3D障碍物的位置信息还会同步采集汽车底盘的CAN信号反映车辆状态如方向盘转角、油门刹车、毫米波雷达回波、激光点云与摄像头视频。这些多模态数据围绕泊车场景形成了“行为驾驶员操作-状态车辆响应-环境周围反馈”的联合数据集。在训练AI时这类数据不仅能告诉模型“是什么”还能帮助模型理解“为什么”比如为什么要避让、如何判断车位可用性等需要物理常识和因果推理的任务。有长期关注AI大模型训练的分析人士告诉量子位这类具有完整推理、决策和反馈链条的数据就是训练空间智能模型的“黄金数据矿”。如祺数据也是基于这种独特的数据源得以系统性地构建其全链条服务能力。技术层面如祺数据自研的OCC自动化标注算法采用同源底图与自动化算法可减少90%人工标注时间交付准确率超98%。其合成数据模块可一键生成雨、雾、雪、夜等长尾场景弥补真实采集盲区多模态数据集则覆盖图像、文本、音频与视频可以直接支持大模型的垂类微调。这套能力的本质是将其在自动驾驶领域验证过的数据工程化经验——从合规采集、规模化清洗、精准标注到合成增强——打包成标准化产品。客户可以“开箱即用”无需从零搭建底层采集与处理能力就能直接获取经过深度加工的标准化数据集与工具链。在这一点上如祺数据和Scale AI的逻辑有点类似不仅提供数据还提供让客户“更懂数据、更高效用数据”的工具与方法论从而降低高质量物理数据的使用门槛提升客户的模型迭代效率。这在一定程度上降低了真实物理数据的使用门槛也让数据能力的适用范围能从自动驾驶扩展到具身智能、大模型、消费电子、医疗等多个领域。也可以说规模和能力只是基础而出行平台真正的想象空间更在于它以场景为原点、向更多物理世界场景泛化的潜力。这也是AI发展历程中一再被证明的结论得“场景”者得天下。得“场景”者得天下走进物理世界后AI行业的底层逻辑正在变化——AI的竞争正在从算法转向场景。正如移动互联网催生了基于位置的服务LBS数据金矿云计算成为了数字经济的通用基建。在AI迈向“空间智能”的当下那些能持续、低成本产出真实物理世界交互数据的「场景」也正成为新时代最核心的基础设施。在这一背景下越来越多人开始意识到场景可能比算法更稀缺。因为算法可以被复现但一个真实、高频、且能产生闭环交互数据的物理场景却极难被复制或搬运。而数据本质上其实是场景的“溢出”拥有场景就拥有了持续产生数据飞轮的可能性。出行平台就是这样一个几乎堪称完美的“元场景”它覆盖了海量的公共道路空间涉及持续的人机共驾决策每天发生数以亿计的交互事件。这些要素叠加在一起构成了一个天然的数据生产系统。并且出行平台采用的“业务即采集”模式还在成本上天然具备明显优势。传统的专业数据采集需要投入专门的采集车、专门的驾驶员、专门的场地成本高昂规模化难上加难。但像如祺出行的采集车本身就是网约车在提供服务的同时完成数据采集边际成本被大幅摊薄。更重要的是这种数据能力还可以从驾驶场景向更广泛的物理世界延伸。据接近如祺出行的人士透露该公司正尝试将“人-车-环境”的交互数据能力泛化至更多应用领域例如具身智能在车后服务场景包括洗车、换电、维保、清理等。车后服务场景作为出行场景的一部分是如祺出行最擅长、数据积累最深的领域如祺可以自然地切入形成真实服务闭环。而在这些场景中机器人需要理解的避障、路径规划、精细操作等底层逻辑和自动驾驶有高度的数据同构性。这种“低成本、高交互”的数据生产模式一旦在一个垂直场景跑通就具备了成为行业标配的潜力。△图片由AI生成一个更长期的趋势是未来那些拥有深厚物理场景运营经验的企业其核心资产可能不仅是服务本身更是其业务过程中持续产生的、高价值的场景数据。这些数据经过系统性的治理与产品化或许可以反哺乃至重塑AI产业。就像出行平台这样的巨型物理世界接口一样在C端平台仍是运人的服务商而在B端出行平台的身份已经进化成为AI理解并进入真实世界的、至关重要的物理数据入口。