自动驾驶调研-Day3

发布时间：2026/6/18 2:27:13

关于 WAM一般说法是VLA 输出只看 action world model 只预测未来世界状态。既预测 action 又预测未来世界状态的叫 WAM。相比 VAWAM 不一定用视频模态来表示世界状态也可能是点云什么的。WAM 关注当前观察 o、语言指令 l、未来观察 o 和动作 a 之间的联合关系p(o, a \mid o, l)[2605.12090] World Action Models: The Next Frontier in Embodied AI 这篇综述将 WAM 按照“先预测 o 再生成 a” 还是 “同时推理 o 和 a” 分成了级联 WAM 和联合 WAM。1级联 WAM (Cascaded WAM)显式地分解了该目标形式化为 $p(o, a \mid o, l) p(a \mid o, o, l)p(o \mid o, l)$即首先合成对预期未来状态的表示随后从中推导出动作2联合 WAM (Joint WAM)直接对联合分布$p(o, a \mid o, l)$进行建模其中状态预测和动作生成在一个共享的表示空间内进行协同优化这些架构的时间演变可参见相应的结构图。这篇综述还进行了二级分类我在分类基础上补充了对各种流派优劣势的分析类别名代表工作优点及分析缺点及分析显式级联UniPi、VLP、RoboEnvision、TesserAct、MVISTA-4D、Gen2Act、Veo-Act核心优点可解释性强因为模型的中间规划就是可直接查看的未来图像、视频或 RGB-D。范式原生分析该范式把决策分解为o,l→o′→ao,l \rightarrow o \rightarrow ao,l→o′→a。由于o′oo′ 位于可观测空间人的检查对象与模型规划对象一致因此可以直接诊断世界预测是否合理。工程优势可复用现成视频生成模型或图像到视频模型。核心缺点误差会沿级联链路传递第一阶段想错会直接误导第二阶段动作。范式原生分析第二阶段实际求解的是p(a∣o^′,o,l)p(a\mid \hat{o},o,l)p(a∣o^′,o,l)。只要第一阶段预测o^′\hat{o}o^′ 偏离任务真实可达未来动作解码器就会在错误条件上生成动作。这个问题来自两阶段条件分解本身。工程问题视频生成慢、显存占用大、长视频质量不足属于当前实现问题不是“显式级联”这个范式必然要求。几何级联AVDC、Im2Flow2Act、3DFlowAction、Dream2Flow、Dreamitate、RIGVid、LV-P核心优点动作恢复更有物理结构因为中间变量直接是光流、3D 流、物体姿态或轨迹。范式原生分析该范式引入几何变量ggg把动作恢复近似为o′→g→ao \rightarrow g \rightarrow ao′→g→a。当ggg 与末端执行器位姿、物体位移或接触轨迹直接相关时动作搜索空间被结构化压缩解码更受运动学约束。核心缺点几何瓶颈会丢失无法由所选几何变量表达的任务信息。范式原生分析该范式默认存在充分的几何摘要ggg。但接触力、材质、遮挡下的真实位姿、非刚体形变、语义目标等不一定能被光流或刚体姿态完整表示因此ggg 可能不是动作的充分统计量。工程问题深度估计、点跟踪、分割、姿态估计模块不稳定是具体感知栈的工程问题。隐式级联VPP、S-VAMSOTA、Video Policy、mimic-video、MWM最新、OmniVTA、LAPA、villa-X核心优点效率更高因为模型不必完整生成像素未来。范式原生分析该范式形成o,l→z′→ao,l \rightarrow z \rightarrow ao,l→z′→a用潜在变量z′zz′ 替代显式未来观察。如果z′zz′ 保留任务相关动力学并丢弃纹理、光照、背景等无关视觉细节动作头获得的是更紧凑的条件变量统计效率和推理效率都会提高。核心缺点可解释性弱因为潜在规划不是人可直接验证的物理量。范式原生分析z′zz′ 不是可观察的图像、轨迹或姿态因此无法直接判断“模型想象的未来是否合理”。如果潜在空间没有与可执行动作对齐动作头可能读到对控制无用的压缩特征。工程问题潜在空间是否对齐动作更多取决于预训练目标、蒸馏策略、数据覆盖和动作监督设计。自回归联合GR-1、GR-MG、GR-2、CoT-VLA、WorldVLA、RynnVLA-002、VLA-JEPASOTA / 最新核心优点统一序列建模方便因为语言、视觉和动作都可以放进同一个上下文生成过程。范式原生分析自回归分解为p(x1:T)∏tp(xt∣x1:t−1)p(x_{1:T})\prod_t p(x_t\mid x_{1:t-1})p(x1:T)∏tp(xt∣x1:t−1)。这种因果分解天然适合长时程上下文、步骤化推理和 history-conditioned policy动作 token 可以条件于此前生成或观测到的世界 token。核心缺点误差累积和逐 token 延迟是自回归联合的天然瓶颈。范式原生分析每一步都以历史生成值为条件早期视觉或动作 token 一旦错误后续条件分布会被污染从而产生 compounding error。同时序列必须逐步生成推理时间随 token 数增长天然不利于高频控制。工程问题KV cache、speculative decoding、并行动作头等可以缓解延迟但不能消除自回归因果链带来的根本限制。扩散联合PAD、VideoVLA、UWM、DreamZero、Cosmos PolicySOTA、FLARE、FRAPPE、CoVAR、DiT4DiT最新、UVA、PhysGen核心优点更适合连续动作和多峰未来因为扩散/流匹配直接在连续空间建模整段联合分布。范式原生分析扩散或流匹配直接建模(o1:T′,a1:T)(o_{1:T},a_{1:T})(o1:T′,a1:T) 的联合分布不必把动作离散成 token去噪过程可以从噪声中并行细化整段未来因此更适合多模态动作分布和连续控制。核心缺点生成成本高且世界目标可能和动作目标竞争。范式原生分析去噪或流匹配需要反复调用生成网络这是生成机制带来的原生成本。联合训练优化LworldLaction\mathcal{L}_{world}\mathcal{L}_{action}LworldLaction如果世界重建项主导梯度模型可能优先生成视觉上合理的未来而不是控制上最有用的未来。工程问题采样步数过多、模型过大、蒸馏不足、损失权重没调好是当前实现层面的工程问题。个人比较看好隐式级联和联合SOTA 和最新是 GPT-5.5 标的如果和文章 claim 有冲突还请轻喷调研了下这三种范式在自动驾驶中的应用果不其然都有一些。WAM 工作核心创新点自动驾驶中是否已有类似工作对应关系S-VAM用自蒸馏把多步视频生成压缩成单步 latent foresight并解耦几何/语义表征。有相近工作但不完全一样。自动驾驶已有 latent future / BEV future world model例如 DriveWorld-VLA、Latent-WAM、DriveFuture。它们同样避免完整像素 rollout转向规划相关 latent。但 S-VAM 的“从多步视频扩散自蒸馏到单步几何语义 foresight”在自动驾驶里还不是主流标准做法。MWM不预测 RGB而预测语义/掩码/结构化 future latent并用它条件化动作扩散头。非常类似自动驾驶本来就有。自动驾驶长期使用 BEV occupancy、semantic map、4D occupancy forecasting 作为 planning-friendly world state。类似工作包括 Drive-OccWorld、BEVWorld、IR-WM。这和 MWM 的“别生成好看的 RGB生成对规划有用的语义/几何状态”高度一致。VLA-JEPAJEPA 式 latent prediction不重建像素只预测未来高层表示再服务动作。已经有直接对应。Drive-JEPA 基本就是把 V-JEPA 思路迁移到自动驾驶用大规模驾驶视频预训练 planning-aligned predictive representations再接轨迹 proposal/planner。Meta 的 V-JEPA 本身也强调 latent-space prediction 而非 pixel reconstruction。Cosmos Policy把视频基础模型直接 fine-tune 成 policy world model value function用 latent frame injection 表示动作、状态和价值。有相近方向但驾驶里还少见完全同构实现。自动驾驶已有 world model planning / value / trajectory selection 的组合例如 DriveFuture、DriveWorld-VLA、Diffusion Planner。但 Cosmos Policy 的关键是“在同一个视频 diffusion latent sequence 中塞入 action、proprioception、future value”驾驶里更多是 BEV latent、occupancy cost、trajectory scorer还没有完全等价的 Cosmos-style latent frame injection。DiT4DiT世界 DiT 产生 hidden states动作 DiT 读取这些 hidden states 生成动作。已经非常接近。自动驾驶里已有双 DiT / world-action diffusion 架构。例如 Epona 用 VisDiT 和 TrajDiT 分别生成未来视觉和轨迹Diffusion Transformer World-Action Model for AV Scene Prediction 做 action-conditioned future scene latent predictionDiffusion Planner 则说明 DiT 轨迹生成在驾驶规划中已经很成熟。----关于任务场景、架构、流派什么的比较meta 的东西就调研到这里。接下来的内容由具体问题引出。----既然共识是图文模态的预训练对驾驶任务有增益图文模态的数据对驾驶任务的影响应该有人研究过。VL 数据对推理驾驶 action 有增益吗在 VLM视觉语言模型的预训练或微调阶段注入自动驾驶专用的图文或视频-文本数据Driving-specific Image-Text Data不仅能让模型学会“解释”场景还能直接且显著地提升下游自动驾驶 Benchmark如开环轨迹预测、闭环仿真驾驶的硬性性能指标。核心代表工作与模型DriveLM (OpenDriveLab 清华):做法提出了图结构的视觉问答Graph VQA机制将驾驶逻辑拆解为带有逻辑递进关系的“感知 (Perception) - 预测 (Prediction) - 规划 (Planning)”。性能表现研究表明联合训练这些带有因果关系的图文数据相比于纯视觉端到端模型在 nuScenes 等开环 Benchmark 上的规划位移误差L2 Error和碰撞率显著降低。Lingo-1 Lingo-2 (Wayve):做法引入了“视觉-语言-动作 (VLA)”架构使用了包含人类专家驾驶员“自然语言解说 (Commentary)”的视频-文本数据进行训练。模型不仅学习输出控制信号还学习同步解释“我现在为什么这么开”。性能表现在闭环驾驶评测中引入这种语言条件和图文对齐后车辆的违规率大幅下降路线完成率Route Completion显著提升。文本数据作为一种强监督信号帮助模型更好地对齐了视觉特征与驾驶意图。DriveVLM DriveGPT4:做法引入了思维链Chain-of-Thought, CoT的自动驾驶图文微调数据。训练 VLM 先用语言描述场景、识别关键障碍物再推理风险最后输出控制规划。性能表现这种基于图文数据的训练极大地提升了模型在长尾场景Long-tail Scenarios如路面异物、极端天气、非常规形态车辆下的鲁棒性在感知和规划 Benchmark 上的安全指标有明显跃升。VERDI 等蒸馏架构 (最新研究):做法并非直接用巨大的 VLM 开车而是在训练阶段将 VLM 对驾驶图文数据的理解和推理能力“蒸馏”到小参数的端到端e2e驾驶模块中。性能表现在 HugSim 或 CARLA 等闭环仿真器中相比于没有融合语言推理的基础模型无碰撞率Non-Collision Rate通常能获得10% 以上的提升。

Node.js爬虫技术革命：x-crawl如何用AI解决90%的动态网页采集难题

Node.js爬虫技术革命：x-crawl如何用AI解决90%的动态网页采集难题【免费下载链接】x-crawl Flexible Node.js AI-assisted crawler library 项目地址: https://gitcode.com/gh_mirrors/xc/x-crawl 在当今数据驱动的商业环境中，企业每天需要处理超…

2026/6/18 2:24:11 阅读更多

Visual C++运行库终极解决方案：AIO一键修复Windows程序运行问题

Visual C运行库终极解决方案：AIO一键修复Windows程序运行问题【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist 你是否遇到过打开游戏时提示"找不…

2026/6/18 2:24:11 阅读更多

掌握Windows界面定制：ExplorerPatcher专业级界面增强解决方案

掌握Windows界面定制：ExplorerPatcher专业级界面增强解决方案【免费下载链接】ExplorerPatcher This project aims to enhance the working environment on Windows 项目地址: https://gitcode.com/GitHub_Trending/ex/ExplorerPatcher 厌倦了Windows 11那千…

2026/6/18 2:23:30 阅读更多

ncmdumpGUI：如何用3分钟将网易云音乐ncm文件批量转换为通用MP3格式的终极指南

ncmdumpGUI：如何用3分钟将网易云音乐ncm文件批量转换为通用MP3格式的终极指南【免费下载链接】ncmdumpGUI C#版本网易云音乐ncm文件格式转换，Windows图形界面版本项目地址: https://gitcode.com/gh_mirrors/nc/ncmdumpGUI 你是否曾经在网易云音…

2026/6/18 4:02:07 阅读更多

突破性解决方案：3分钟让微信网页版恢复正常访问的智能插件

突破性解决方案：3分钟让微信网页版恢复正常访问的智能插件【免费下载链接】wechat-need-web 让微信网页版可用 / Allow the use of WeChat via webpage access 项目地址: https://gitcode.com/gh_mirrors/we/wechat-need-web 还在为微信网页版无法正常访问而…

2026/6/18 4:02:07 阅读更多

【雷达发射机设计】第16章分布式相参发射与协同探测

第16章分布式相参发射与协同探测 16.1 破冰：为什么多架雷达协同比单架更强想象一个场景：敌方隐身战机从海岸线渗透，单部雷达的探测距离因为隐身设计而缩短到一百公里以内。但如果沿海岸线部署五部雷达，每部雷达各自发射信号，在目标处实现相干叠加，等效辐射功率提升二十…

2026/6/18 3:59:05 阅读更多

Linux 实时任务的 CPU 绑定：taskset 与实时性提升

文章前言简介在工业控制、车载嵌入式、5G 基站、航天测控、音视频低延迟编解码这类硬实时业务场景中，系统抖动、任务随机 CPU 迁移、L1/L2 缓存频繁失效是破坏任务执行确定性的核心元凶。标准 Linux CFS 完全公平调度器面向通用桌面、服务器场景设计，以吞…

2026/6/18 3:51:17 阅读更多

Dijkstra、A_、Theta_、JPS、D_、LPA_、D_ Lite、RRT、RRT_、RRT-Connect、Informed RRT_、ACO、Voronoi、PID、LQR、MPC、AP

✅作者简介：热爱科研的Matlab仿真开发者，擅长毕业设计辅导、数学建模、数据处理、程序设计科研仿真。🍎完整代码获取定制创新论文复现点击：Matlab科研工作室👇 关注我领取海量matlab电子书和数学建模资料 &#x1f3…

2026/6/18 3:50:16 阅读更多

高级调试技巧：事件点、观察点与变量操作实战解析

1. 调试进阶：超越普通断点的程序控制艺术调试，对于每一位开发者而言，既是日常，也是艺术。当程序行为偏离预期，我们需要的不仅仅是“停下来看看”，而是更精细、更智能的控制与洞察。传统的断点（B…

2026/6/18 3:49:36 阅读更多

Java毕设选题推荐：基于 Spring Boot 的个人随笔博客运维管理系统的设计与实现基于 Spring Boot 的用户原创博客分享社区【附源码、mysql、文档、调试+代码讲解+全bao等】

博主介绍：✌️码农一枚 ，专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围：&am…

2026/6/18 0:00:19 阅读更多

【IC】【Low Power】从功耗构成到设计实践：CMOS低功耗技术全景解析

1. CMOS电路功耗构成解析在芯片设计中，功耗就像汽车的油耗指标，直接影响着设备的续航能力和发热表现。想象一下你的手机如果功耗控制不好，可能用不了半天就得充电，还会烫得像暖手宝。CMOS电路的功耗主要来自两个"耗电大户&q…

2026/6/18 0:02:02 阅读更多

跨平台音乐播放神器：LX Music桌面版一站式解决多平台音乐聚合难题

跨平台音乐播放神器：LX Music桌面版一站式解决多平台音乐聚合难题【免费下载链接】lx-music-desktop 一个基于 Electron 的音乐软件项目地址: https://gitcode.com/GitHub_Trending/lx/lx-music-desktop 你是否厌倦了在不同音乐平台间来回切换？…

2026/6/18 0:04:07 阅读更多

音乐文件解锁实战指南：3个场景解决你的播放困境

音乐文件解锁实战指南：3个场景解决你的播放困境【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库： 1. https://github.com/unlock-music/unlock-music ；2. https://git.unlock-music.dev/um/web 项目地址: https://git…

2026/6/18 0:35:55 阅读更多

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

遥感卫星数据选型实战指南：从参数解析到场景化应用当面对GEE、PIE-Engine等云平台上数十种遥感数据源时，许多研究者常陷入选择困难——Landsat的历史连续性、Sentinel-2的红边波段优势、高分系列的亚米级分辨率各有千秋。本文将打破常规参数罗列式对比&a…

2026/6/18 0:35:55 阅读更多

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

1. 项目概述：MC68302 AutoBaud技术深度解析在嵌入式系统开发，尤其是那些需要与外部设备进行串口通信的场景里，最让人头疼的环节之一就是波特率匹配。想象一下，你设计了一个数据采集终端，需要连接来自不同厂家、不同年代…

2026/6/18 0:35:55 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/17 11:00:37 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/17 11:00:26 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/17 11:00:22 阅读更多

相关文章

Node.js爬虫技术革命：x-crawl如何用AI解决90%的动态网页采集难题

Visual C++运行库终极解决方案：AIO一键修复Windows程序运行问题

掌握Windows界面定制：ExplorerPatcher专业级界面增强解决方案

ncmdumpGUI：如何用3分钟将网易云音乐ncm文件批量转换为通用MP3格式的终极指南

突破性解决方案：3分钟让微信网页版恢复正常访问的智能插件

【雷达发射机设计】 第16章 分布式相参发射与协同探测

Linux 实时任务的 CPU 绑定：taskset 与实时性提升

Dijkstra、A_、Theta_、JPS、D_、LPA_、D_ Lite、RRT、RRT_、RRT-Connect、Informed RRT_、ACO、Voronoi、PID、LQR、MPC、AP

高级调试技巧：事件点、观察点与变量操作实战解析

Java毕设选题推荐：基于 Spring Boot 的个人随笔博客运维管理系统的设计与实现 基于 Spring Boot 的用户原创博客分享社区【附源码、mysql、文档、调试+代码讲解+全bao等】

【IC】【Low Power】从功耗构成到设计实践：CMOS低功耗技术全景解析

跨平台音乐播放神器：LX Music桌面版一站式解决多平台音乐聚合难题

音乐文件解锁实战指南：3个场景解决你的播放困境

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

【雷达发射机设计】第16章分布式相参发射与协同探测

Java毕设选题推荐：基于 Spring Boot 的个人随笔博客运维管理系统的设计与实现基于 Spring Boot 的用户原创博客分享社区【附源码、mysql、文档、调试+代码讲解+全bao等】