神经网络与深度学习——第五周课程总结 1. 视觉大模型与多模态大模型1.1 大模型技术概述大模型通常具有参数规模大、训练数据多、任务适应能力强等特点。它不再只面向单一任务而是希望通过大规模预训练获得更通用的表示能力再通过微调或指令对齐适应具体任务。在自然语言处理领域大语言模型通过海量文本学习语言规律能够完成问答、翻译、摘要和代码生成等任务。这种“预训练 下游适配”的思想也成为视觉大模型和多模态大模型的重要基础。1.2 大语言模型与 ChatGPT 训练大语言模型通常先进行无监督预训练常见目标包括语言模型预训练和掩码语言模型预训练。前者学习根据已有上下文预测下一个词后者学习根据上下文恢复被遮挡的词。预训练之后模型还需要进一步对齐人类期望。监督微调通过人工标注的问答数据让模型学会按照指令生成回答奖励模型则用于评价模型输出质量并为后续强化学习优化提供反馈。通过这一过程模型不仅学习语言统计规律也逐渐学习“什么样的回答更符合人类偏好”。1.3 多模态大模型多模态大模型希望同时处理文本、图像、语音等信息。与单一模态模型相比它需要解决不同模态之间的表示对齐问题例如让图像中的视觉对象与文本中的词语、短语或句子建立对应关系。多模态模型的发展说明深度学习正在从单任务、单模态系统走向更通用的基础模型。视觉不再只是分类、检测或分割中的输入而是可以和语言模型结合用于图文检索、图像描述、视觉问答和跨模态生成等任务。2. Vision Transformer 概述2.1 ViT 的基本思想ViTVision Transformer将 Transformer 引入图像分类任务。传统 CNN 依赖卷积核提取局部空间特征而 ViT 的核心思路是把图像切分为一系列 patch并把这些 patch 当作类似 NLP 中 token 的序列输入 Transformer Encoder。这种做法把图像处理转化为序列建模问题。每个 patch 对应一个视觉 tokenTransformer 通过自注意力机制建模不同 patch 之间的关系。相比 CNN 的局部卷积ViT 更直接地利用全局注意力捕捉图像中远距离区域之间的联系。2.2 ViT 整体结构ViT 的整体流程可以概括为先将输入图像划分为固定大小的 patch再把每个 patch 线性映射为向量随后加入类别 token 和位置编码输入 Transformer Encoder最后取类别 token 对应的输出送入 MLP Head 完成分类。ViT 主要包括 Embedding 层、Transformer Encoder 和 MLP Head。Embedding 层负责把二维图像转换为 token 序列Transformer Encoder 负责提取全局特征MLP Head 则根据类别 token 的最终表示输出分类结果。3. ViT 输入与编码器3.1 Patch EmbeddingViT 首先将输入图像切分为 patch 序列。假设输入图像大小为H × W × C H\times W\times CH×W×Cpatch 大小为P × P P\times PP×P则 patch 数量为N H W P 2 N\frac{HW}{P^2}NP2HW​每个 patch 展平后维度为P 2 C P^2CP2C再通过线性映射变为D DD维 token 向量。以224 × 224 × 3 224\times224\times3224×224×3图像和16 × 16 16\times1616×16patch 为例图像共有14 × 14 196 14\times1419614×14196个 patch加入类别 token 后序列长度为 197。Patch Embedding 的意义在于它把图像从二维网格结构转换为 Transformer 能处理的一维 token 序列。这个过程类似 NLP 中将词映射为词向量只是这里的“词”变成了图像 patch。3.2 位置编码由于 Transformer 本身不包含卷积或循环结构如果只输入 patch 向量模型无法知道每个 patch 在原图中的位置。因此 ViT 需要加入位置编码使模型能够区分不同空间位置。ViT 中通常使用可学习的位置编码将其与 patch embedding 相加后输入 Transformer Encoder。一维位置编码和二维位置编码的差异在于一维位置编码实现简单二维位置编码更符合图像空间结构但在输入尺寸变化时需要处理插值问题。3.3 Transformer EncoderViT 的编码器与标准 Transformer Encoder 类似主要由层归一化、多头自注意力、MLP 和残差连接组成。其计算形式可以概括为z 0 [ x c l a s s ; x p 1 E ; x p 2 E ; … ; x p N E ] E p o s z l ′ M S A ( L N ( z l − 1 ) ) z l − 1 z l M L P ( L N ( z l ′ ) ) z l ′ y L N ( z L 0 ) \begin{aligned} z_0[x_{class};x_p^1E;x_p^2E;\dots;x_p^NE]E_{pos}\\ z_lMSA(LN(z_{l-1}))z_{l-1}\\ z_lMLP(LN(z_l))z_l\\ yLN(z_L^0) \end{aligned}z0​zl′​zl​y​[xclass​;xp1​E;xp2​E;…;xpN​E]Epos​MSA(LN(zl−1​))zl−1​MLP(LN(zl′​))zl′​LN(zL0​)​其中x c l a s s x_{class}xclass​是类别 tokenx p i x_p^ixpi​表示第i ii个 patchE EE是线性映射矩阵E p o s E_{pos}Epos​是位置编码M S A MSAMSA表示多头自注意力L N LNLN表示层归一化。自注意力负责建模不同 patch 之间的关系残差连接和层归一化则有助于稳定深层 Transformer 的训练。4. MLP Head、结果与微调4.1 MLP 层与 GELU 激活函数ViT Encoder 后通常接 MLP Head 完成分类。类别 token 经过 Transformer Encoder 后包含整张图像的全局信息因此可以作为图像级表示送入分类头。ViT 中的 MLP 层常使用 GELU 激活函数。GELU 与 ReLU 类似都是非线性激活函数但形式更加平滑G E L U ( x ) x Φ ( x ) GELU(x)x\Phi(x)GELU(x)xΦ(x)其中Φ ( x ) \Phi(x)Φ(x)是标准正态分布的累积分布函数。GELU 在 Transformer 结构中使用较多有助于提高模型表达能力和训练效果。4.2 ViT 结果与模型规模ViT 有 Base、Large、Huge 等不同规模版本主要差异体现在 patch size、层数、隐藏维度、MLP 维度、注意力头数和参数量上。模型越大表达能力越强但训练所需的数据和计算资源也越多。ViT 在足够大规模预训练数据上可以取得很好的分类效果甚至超过传统 CNN但在较小数据集上ViT 未必天然优于 CNN。这说明 ViT 的性能高度依赖大规模数据和充分预训练。4.3 微调与输入尺寸问题预训练后的 ViT 可以通过微调适应下游任务。微调通常在较小数据集上进行模型先加载预训练参数再根据具体任务更新部分或全部参数。ViT 微调时会遇到输入尺寸变化问题。预训练时图像可能使用固定大小和固定 patch 数量而下游任务可能使用不同分辨率此时位置编码长度可能不匹配需要进行插值。二维位置编码插值就是为了解决不同输入尺寸下的位置编码迁移问题。5. CLIP 与 DINO5.1 CLIPCLIPContrastive Language-Image Pretraining是一种通用视觉语言模型。它利用大量图像和文本描述进行对比学习使图像编码器和文本编码器输出到同一个语义空间中。训练目标是让匹配的图像文本对更接近不匹配的图像文本对更远离。CLIP 的重要意义在于它不只学习固定类别的图像分类器而是学习图像和自然语言之间的对应关系。这样模型可以通过文本提示完成开放词表分类、图文检索等任务。5.2 DINO 与自监督学习DINO 是一种自监督视觉表征学习方法。它通常采用教师网络和学生网络结构让学生网络学习教师网络在不同视图下的输出从而获得不依赖人工标签的视觉表示。与传统监督学习依赖类别标签不同DINO 利用图像自身的不同增强视图构造训练信号。模型需要在不同裁剪、尺度或增强条件下保持语义一致从而学到更通用的视觉特征。DINO 说明视觉大模型不仅可以依靠大规模标注数据也可以通过自监督学习从未标注图像中获得有效表示。5.3 从 ViT 到视觉大模型ViT 可以看作 Transformer 从文本序列向视觉任务的扩展。它将图像 patch 组织成 token 序列使 Transformer 能够处理视觉任务CLIP 进一步把视觉表示和语言表示对齐DINO 则展示了不依赖人工标签的自监督视觉学习方式。这几部分共同说明视觉大模型的发展核心不只是网络结构变大更重要的是表示方式、训练数据和训练目标发生变化。图像可以被看作 token 序列图像与文本可以进入统一语义空间模型也可以通过自监督或对比学习获得更通用的视觉表示。6. 具身智能与机器人系统6.1 具身智能的基本概念传统互联网人工智能主要依靠文本、图像、语音等数据在虚拟空间中完成识别、生成或问答任务具身智能则强调智能体具有具体的身体或执行载体能够通过传感器感知环境并通过动作与真实世界发生交互。具身智能的核心是形成“感知—认知—规划—行动—反馈”的闭环。智能体先通过视觉、听觉、触觉等多模态信息获得环境状态再进行任务理解和决策规划最后由机械臂、移动底盘等执行机构产生动作。动作会改变环境新的环境反馈又会影响后续决策。因此具身智能相比离身智能更强调物理约束、实时交互和连续决策。机器人是具身智能的重要载体。一个完整的具身机器人系统通常包括感知模块、认知与决策模块、运动规划模块、控制执行模块和人机交互模块。感知模块负责获取环境信息认知与决策模块负责理解任务目标并选择行动策略运动规划和控制模块则把高层动作转化为可执行轨迹。6.2 具身感知、仿真环境与 ALOHA机器视觉是具身智能的重要入口。普通视觉任务更关注“图像中有什么”而具身感知更关注“当前环境能做什么、下一步应该怎么做”。因此机器人不仅要识别物体还要判断物体位置、姿态、可操作区域以及动作可能带来的结果。主动视觉感知、三维视觉感知和视觉语言导航都体现了视觉信息与行动决策之间的结合。由于真实机器人实验成本高、风险大、数据采集速度慢仿真环境在具身智能研究中非常重要。MuJoCo、Isaac Sim 和 Gazebo 更侧重物理仿真和机器人控制AI2-THOR、Matterport3D、VirtualHome、SAPIEN、Habitat 和 iGibson 等平台更侧重真实或半真实场景中的感知、导航与交互任务。仿真环境能够降低实验成本、批量生成数据并评估算法泛化能力但也存在 sim-to-real 问题需要结合真实数据和实际部署进行验证。ALOHA 是一种低成本、开源的双臂遥操作硬件系统主要用于采集双臂操作数据并进行模仿学习。其中 ACTAction Chunking with Transformers通过一次预测一段未来动作序列提高长时序操作的连贯性。Mobile ALOHA 在此基础上加入移动底盘使机器人可以完成更大范围的移动操作任务也体现了具身智能从固定桌面操作走向开放环境连续任务的趋势。7. VLA 模型与 SmolVLA7.1 VLA 模型与 OpenVLAVLAVision-Language-Action模型围绕机器人任务中的视觉、语言和动作三类信息展开。它的目标是将视觉观测和自然语言指令映射为机器人可执行的动作使模型能够根据“看到的环境”和“听到的任务”直接产生行为。与传统视觉语言模型相比VLA 模型多了动作维度。视觉语言模型通常输出文本回答或语义判断而 VLA 模型需要输出机械臂位姿、夹爪开合、移动速度等动作控制量。因此VLA 模型不仅要理解图像和语言还要适应机器人本体、动作空间和物理环境。VLA 模型的组成可以概括为预训练模型、控制策略和任务规划等部分。视觉编码器负责提取图像或视频特征语言模型负责理解任务语义动作解码器或策略头负责生成具体动作。VLA 模型可以采用端到端策略、分层策略或代码式规划方法但也面临机器人数据采集成本高、跨平台泛化困难、安全性和实时性要求高等挑战。OpenVLA 是一个开源 VLA 模型目标是构建通用机器人策略使模型能够根据视觉观测和语言指令输出机器人动作。它通常以视觉编码器、大语言模型骨干和动作解码模块为核心结构将图像特征与文本指令融合后生成动作表示。OpenVLA 的意义在于开放性和通用性但较大规模模型也会带来推理速度、显存占用和部署成本方面的压力。7.2 SmolVLA 与轻量化部署SmolVLA 是轻量级 VLA 模型核心目标是在资源受限的条件下实现机器人视觉语言动作控制。与较大规模的 VLA 模型相比SmolVLA 更强调高效推理、低成本训练和实际部署可行性。它通常采用较小的视觉语言骨干并结合动作专家或策略头生成机器人动作通过视觉 token 压缩、轻量化主干和紧凑的动作建模在性能与效率之间取得平衡。传统 VLA 模型常采用同步执行方式机器人等待模型根据当前观测生成动作然后执行该动作再等待下一次推理。这种方式在模型较慢时会降低控制频率。异步推理将模型预测和机器人执行解耦使模型可以在机器人执行当前动作片段的同时预测后续动作从而提高控制流畅性。SmolVLA 的训练与 LeRobot 框架密切相关。LeRobot 提供了机器人数据集、训练脚本、策略接口和推理工具使研究者能够完成从数据采集、数据可视化、模型训练到真实机器人部署的流程。机器人数据中常有失败轨迹、噪声动作和不一致示范因此数据清洗、任务平衡和高质量示范筛选是提升策略效果的重要手段。8. 世界模型8.1 世界模型的核心思想世界模型可以理解为智能体对外部世界运行规律的内部建模能力。它不仅记录当前状态还要能够根据当前状态和动作预测未来状态从而帮助智能体进行规划和决策。可以用一个简化形式表示世界模型的预测过程S ^ t 1 f ( S t , A t ) \hat{S}_{t1}f(S_t,A_t)S^t1​f(St​,At​)其中(S_t) 表示当前状态(A_t) 表示智能体采取的动作(\hat{S}_{t1}) 表示模型预测的下一时刻状态。真实环境反馈会不断修正模型的内部表示使智能体在“预测—行动—观察—更新”的闭环中逐步形成对世界的理解。世界模型的重要性在于它使智能体不必完全依赖试错。一个具备世界模型的机器人可以在执行动作前先预测可能结果例如判断抓取某个物体是否会碰倒旁边物品或者移动路径是否会与障碍物冲突。这种预测能力是具身智能从被动反应走向主动规划的关键。8.2 表征式与生成式世界模型世界模型可以分为表征式世界模型和生成式世界模型。表征式世界模型关注对世界结构、关系和规律的抽象表示而不一定生成完整的视觉细节。心理模型、直觉物理引擎以及 World Models、DINO-World、V-JEPA 等工作都体现了从观测中学习潜在状态表示并在表示空间中预测未来的思想。关于大语言模型与世界模型的关系。一种观点认为语言模型通过自回归预测学习到了大量关于世界的统计规律因此具有某种形式的世界模型另一种观点则认为语言模型主要从文本中学习模式缺少直接物理交互和因果反馈因此其世界模型是不完整的。生成式世界模型更强调生成具体的未来场景或感知结果例如根据当前画面和动作生成下一帧视频或者构建可交互的虚拟环境。规则驱动的仿真系统可控性强、解释性好但依赖人工建模数据驱动的生成式世界模型能够从大规模视频、图像和交互数据中学习环境动态但仍需要解决时序一致性、物理合理性、可控性和长期记忆等问题。从整体上看视觉大模型、多模态大模型、具身智能、VLA 模型和世界模型之间具有清晰的递进关系。ViT、CLIP 和 DINO 解决了视觉表示与跨模态对齐问题具身智能进一步要求模型进入环境并产生动作VLA 模型提供视觉、语言和动作之间的统一接口而世界模型则为智能体预测未来、进行规划和提升泛化能力提供基础。