计算机视觉领域 选择 卷积神经网络 还是选择 Vision Transformer 计算机视觉领域 选择 卷积神经网络 还是选择 Vision Transformerflyfish如果接触过计算机视觉一定听过一个经典结论卷积神经网络CNN是为图像而生的。同样是神经网络同样是反向传播训练为什么全连接网络处理图像始终效率低下为什么在数据量有限的场景下CNN很管用答案藏在一个看似抽象却决定了模型本质的概念里——归纳偏置Inductive Bias。它不是模型训练出的参数而是设计者刻进网络结构里的先天认知框架它决定了模型如何理解数据、如何从有限样本中泛化也最终决定了模型的能力边界。什么是归纳偏置机器学习的本质是从有限的训练数据中归纳出通用规律再应用到从未见过的新样本上。但逻辑学上一个冰冷的事实是有限的观测永远无法唯一确定无限的泛化结果。同一批训练数据可以拟合出无数种函数它们在训练集上表现完全一致但在测试集上却天差地别。不存在普适最优的学习算法所有算法都必须依赖对数据分布的先验假设才能从无数可能性中筛选出合理的解。这些被内置到算法中的先验假设就是归纳偏置。它不是可训练的权重不是可调的超参数而是由模型架构、运算规则直接决定的学习偏好。线性回归、决策树、卷积神经网络等都存在归纳偏置所有这些假设最终都指向同一个作用引导模型在有限数据中实现有效泛化。没有归纳偏置模型就像在无边的黑暗里摸索再多数据也难以找到正确的方向。卷积神经网络 CNN的三层归纳偏置CNN复刻了人类对自然视觉世界的三条基本认知。1. 局部性CNN的第一个假设是视觉语义从局部涌现图像的语义信息是局部涌现的邻近像素的关联性远高于远距离像素。边缘、纹理、角点、色块……所有基础视觉特征都只存在于一小片相邻像素中。判断一条线是不是边缘只需要看它周围几个像素的亮度差异识别一块纹理也只需要局部窗口的信息。远处的像素哪怕完全不同也不会影响这个局部特征的判定。基于这个假设CNN引入了局部感受野每个神经元只与输入的一小块区域相连而不是像全连接网络那样和所有像素建立连接。它让网络专注于从局部提取基础模式而不是一开始就强行建模全局像素的复杂关联。这直接带来了两个关键收益一是参数量指数级下降二是模型天然聚焦于视觉特征的本质而非像素的绝对位置。就像我们识别一张猫的照片只需要看清局部的耳朵、胡须、花纹就能判断出这是猫不需要把每一个像素都关联起来。2. 从等变性到不变性平移等变性CNN的第二个假设是特征是全图通用的同一个视觉特征可以出现在图像的任意位置其本质不会改变。位置细节让位于语义存在对于高层语义任务而言特征的大致存在比它的精确像素位置更重要。一只猫的耳朵无论出现在画面左上角还是右下角都是猫耳朵一条竖直边缘无论在图片哪个位置都是竖直边缘。视觉特征的定义和它的空间坐标无关。基于这个假设CNN引入了权值共享同一组卷积核参数会在整张特征图上滑动复用从左到右、从上到下检测特征的规则完全一致。由此带来的性质叫做平移等变性如果输入图像整体平移一段距离输出特征图也会对应平移相同距离特征的响应强度保持不变。这是CNN最伟大的设计之一。它让知识可以跨空间复用——一个在左上角学到的边缘检测器直接可以在全图任何位置工作无需重复学习。与之形成鲜明对比的是全连接网络。全连接的每个位置对应独立权重如果训练时数字3只出现在画面上方测试时把它移到画面下方模型很可能直接识别失败。因为它学到的是某个坐标的像素组合等于3而不是3这个形状本身是什么。这种对平移的高度敏感性正是全连接网络不适合处理图像原因。平移不变性现实世界中物体的位置总会有微小偏移。手写数字会偏左偏右人脸会在画面中移动物体距离变化会带来位置微调。如果模型对每个像素的位置都高度敏感就会被这些无关的位移干扰无法稳定识别语义。基于这个假设CNN引入了池化层在小窗口内取最大值或平均值压缩空间尺寸同时丢弃精细的位置信息只保留这个区域内是否存在该特征的判定。由此带来的性质叫做平移不变性只要物体的位移还在池化窗口范围内输出结果就基本保持不变。从等变性到不变性是一个从检测到聚合的逻辑递进卷积层负责找到特征在哪里池化层负责确认这里有这个特征。3. 层级化特征抽象CNN 的第三个假设复杂的视觉概念是由简单特征自底向上逐层组合而成的。复杂语义由简单特征逐层构建。这一假设并非来自某一个单独的层而是深度卷积堆叠的自然涌现。随着网络层数加深每个神经元的感受野逐层扩大每一层都在上一层特征的基础上做更高阶的组合天然形成了 边缘→纹理→部件→物体”的层级化表示路径。具体来看CNN 的特征抽象遵循清晰的分层规律浅层网络学习最基础的视觉元语比如水平 / 竖直边缘、色块、简单纹理中层网络将底层特征组合成更复杂的模式比如拐角、圆形、网格纹理、物体部件轮廓深层网络进一步聚合出完整的语义概念比如人脸、车轮、整只猫、整辆车。这种层级化偏置与人类视觉皮层的信息处理逻辑高度吻合 —— 初级视觉皮层处理边缘高级视觉皮层处理物体语义。更重要的是它赋予了 CNN 极强的知识迁移能力低层的边缘、纹理特征是跨场景通用的在 ImageNet 上预训练得到的底层特征可以直接迁移到其他等小众任务上这也是迁移学习与微调能够生效的底层基础。Vision TransformerViT为何在训练数据规模足够大、标注样本量充足的视觉任务场景下以Vision TransformerViT为代表的弱归纳偏置视觉模型能够在图像分类、目标检测、语义分割等主流任务上达到并逐步超越传统卷积神经网络CNN的性能展现出更强的性能上限与规模缩放潜力这一现象是归纳偏置的价值反转与模型架构本身的容量特性共同作用的结果。当数据量从稀缺转向充足时强归纳偏置会从学习的助力变为性能的天花板而弱归纳偏置模型的灵活性与全局建模能力会被充分释放1. 归纳偏置的双重性强假设从捷径变为枷锁CNN的局部性、平移等变性、层级化特征提取等归纳偏置本质是人类对视觉规律的人工经验总结是对真实视觉世界的近似简化。在小数据场景下这些先验相当于直接告诉模型图像长什么样大幅缩小了搜索空间让模型不用从零摸索视觉基本规律因此收敛更快、泛化更好当数据量足够大时真实数据中包含的复杂模式长距离依赖、非规则纹理、物体间的隐式关系、细粒度语义差异等往往超出了局部相关、平移复用这些简化假设的覆盖范围。此时CNN的强归纳偏置会成为硬性约束——模型被人工假设锁死了表达能力无法学到数据中更复杂、更贴合真实分布的规律性能会先进入瓶颈。而ViT几乎没有针对视觉的强结构性假设仅保留了最基础的patch切分与序列建模逻辑对数据分布的限制更少。当数据量足够支撑模型自行探索规律时它不会被人工先验束缚能够拟合更复杂的真实视觉分布性能上限天然更高。2. 全局建模能力复杂视觉推理的天然优势CNN依赖局部感受野堆叠来扩大感知范围长距离的信息传递需要经过多层卷积路径长、损耗大对跨区域的语义关联、物体间关系、全局上下文的建模效率很低。ViT的自注意力机制则可以在单层内实现所有图像块的双向交互天然具备全局建模能力它可以直接建模图片中两个相距很远的物体的关联比如桌子上有杯子的空间关系可以利用全局上下文辅助细粒度识别比如通过整体场景判断局部物体的类别可以灵活地根据内容动态分配注意力权重而非像CNN一样固定使用局部窗口。大数据集往往包含更丰富的复杂场景、多物体交互、细粒度差异这些需要全局推理的内容正是CNN的短板却是ViT的优势场景。数据量越大这类复杂模式的样本越充足ViT的全局建模能力就越能发挥价值。3. 缩放定律Scaling Law更平滑的性能增长曲线深度学习的缩放定律指出在架构合理的前提下模型性能会随着参数量、训练数据量、计算量的提升而持续、可预测地增长。不同架构的缩放潜力存在显著差异传统CNN的性能增长会较早遇到瓶颈。除了归纳偏置的限制局部卷积的并行效率、深度堆叠后的优化难度都让它在参数量和数据量持续扩大时性能边际收益快速下降Transformer架构展现出了更优异的缩放特性只要持续增加数据规模、模型参数量与训练算力性能就能保持近似对数线性的持续增长没有明显的早期天花板。在海量数据的支撑下ViT可以通过扩大模型规模、延长训练时长来持续提效而CNN很快会进入投入产出比极低的平台期。这也是为什么超大规模视觉预训练模型普遍采用Transformer架构——它能更好地兑现大数据大算力带来的性能增益。4. 通用表示能力跨任务迁移的更强潜力大数据预训练的价值是得到可迁移的通用特征表示。CNN学到的特征是强视觉偏置下的专用特征高度适配图像的空间结构但迁移到结构差异大的任务如多模态、视频理解、开放词汇识别时适配成本高ViT的序列建模全局注意力得到的特征表示更通用、更灵活。CNN 练出来的视觉本事是照着图像的空间结构量身定做的专项技能—— 干图像分类、目标检测这些老本行特别顺手但一旦要跨界去做多模态融合、视频理解、开放词汇识别这类和纯图像结构差得远的任务就得大动干戈地调整。