18 CLIP 论文精读:ViT 如何走向图文多模态?(Learning Transferable Visual Models From Natural Language Supervision) 在前几篇文章中我们围绕 ViT 的自监督预训练路线进行了连续梳理。MAE 的核心思想是遮住大部分图像 patch让模型重建被遮挡区域的像素。BEiT 的核心思想是先用视觉 tokenizer 把图像转换成离散 visual token再让模型预测被 mask 位置对应的 visual token。DINO 的核心思想是不使用人工标签也不重建图像而是通过 teacher-student 自蒸馏让 ViT 学到稳定的语义表示。这些方法虽然形式不同但它们本质上都在回答同一个问题没有人工类别标签时ViT 如何从图像本身学习视觉表示而 CLIP 开始回答另一个更大的问题能不能直接利用互联网上大量的图像和文本描述让模型学会把图像和语言对齐这意味着ViT 不再只是一个图像分类 backbone而开始进入 图文多模态预训练 阶段。CLIP 对应的论文是 Learning Transferable Visual Models From Natural Language Supervision由 Alec Radford 等人提出发表于 ICML 2021。论文提出使用 4 亿个互联网图文对进行预训练通过“判断哪张图和哪句话匹配”的对比学习任务学习可迁移的视觉表示并支持 zero-shot 图像分类。