CLIP之后如何迭代2024–2026视觉编码器十大变体技术梳理视觉编码器的作用将图像数据转化为LLM可以理解的视觉Token特征序列。流程图像224×224×3→ 视觉编码器ViT/ConvNet→ 视觉特征 Token → 投影层适配 → 输入 LLMVLM 80%的性能瓶颈来自视觉编码器而非语言模型。根据训练范式差异可将当前主流视觉编码器分为对比学习、自监督学习、高分辨率优化、多专家混合四大流派。流派一对比学习流派CLIP 一脉核心思路基于图文对训练通过对比损失拉近匹配图文特征、推远无关特征是语义对齐能力最强的技术路线。1. CLIPOpenAI, 2021架构ViT-L/14约300M参数训练方式4亿图文对 对比损失优势图文语义匹配效果经典、稳定短板空间感知能力弱固定224×224低分辨率细节捕捉差现状实际部署已淘汰仅作为论文基线用于对比2. SigLIPGoogle, 2023架构ViT-So400M核心改进用 Sigmoid 损失替换原版 Softmax 对比损失大幅降低计算开销优势训练效率更高整体性能较 CLIP 提升10%以上现状LLaVA-1.6、LLaVA-Next 标配视觉编码器3. SigLIP 2Google, 2025核心升级在对比损失基础上新增文本描述损失、自蒸馏、掩码预测多任务训练性能亮点仅400M参数在绝大多数VLM任务中效果优于6B参数的 InternViT-6B现状2025年对比学习路线最优通用编码器适用性极强科研实操建议做实验、跑基线建议同时对比 CLIP 与 SigLIP既保证学术工作的延续性也符合当前前沿性能标准。流派二自监督学习流派DINO 一脉核心思路无需文本标注仅依靠图像自身信息做自监督学习几何、空间、分割感知能力极强。1. DINOv2Meta, 2023架构ViT-L/14、ViT-g/14训练方式1.42亿无标注图像 自监督蒸馏优势物体定位、语义分割、深度估计、场景几何理解能力突出短板无图文对齐训练纯语义识别任务表现一般现状所有需要空间感知、精准定位的多模态模型基本都会融合 DINOv2 特征2. DINOv3Meta, 2025核心升级扩大训练数据规模强化密集预测、细粒度特征提取能力适配场景具身智能、机器人 VLA、动态场景感知等前沿方向核心区别CLIP/SigLIP 擅长识别「物体是什么」DINO 系列擅长判断「物体在哪里、形态如何」。高性能 SOTA 模型基本都会融合两类特征。流派三高分辨率优化流派原版 CLIP 仅支持224×224输入在文档、小目标、高清图像场景严重失效。该流派专门解决细粒度识别、高清视觉问题。1. EVA-CLIP北智院, 2023架构超大 ViT-g 模型参数超1B训练特点MIM掩码预训练 CLIP图文微调兼顾性能与部署可行性现状InternVL 早期版本的核心视觉编码器2. InternViT-6B上海AI Lab, 2024架构6B超大参数视觉模型训练方式渐进式蒸馏 适配大语言模型特征对齐优势支持动态分辨率最高可处理4K高清图像现状InternVL2、InternVL3 核心编码器国产主流方案客观短板参数体量巨大但多数通用任务性能不及轻量化的 SigLIP 23. AnyRes 动态分辨率策略2024不属于新编码器而是通用性极强的工程优化方案。核心逻辑将高清大图切分为多个局部 Patch独立编码后融合特征优势零成本改造原有模型快速适配高分辨率场景现状LLaVA-Next、Qwen2-VL、InternVL2 全部采用场景结论OCR、文档解析、医学影像、遥感图像等任务中分辨率的影响远大于模型参数量AnyRes 是2024年性价比最高的工程优化技巧。流派四多视觉专家混合流派MoVE单一编码器均存在短板语义、几何、分割、文档理解无法兼顾。多专家方案通过多编码器并联实现能力互补。1. Eagle / MoVA / Cambrian-12024–2025架构思路并联 CLIP语义、DINOv2几何、SAM分割、Pix2Struct文档等多个专用编码器核心技术路由网络动态调度不同模块的特征按需融合优势OCR、定位、几何推理、图文匹配全面均衡短板计算量大、推理速度慢、资源开销高现状2025年顶会主流刷分方案多模块融合是性能提升的通用套路2. OpenVisionUCSC, 2025特点训练数据、训练配方完全开源复现性拉满性能B/16架构384分辨率下多项指标超越原生 CLIP适用场景学术复现、公平对比实验无训练黑箱视觉编码器选型方案OCR / 文档理解AnyRes 动态分辨率 SigLIP 2分割 / 具身智能 / VLA机器人DINOv2 / DINOv3中文场景 / 4K高清图像InternViT顶会刷分 / 性能极致优化MoVE多编码器混合方案学术复现 / 公平对比实验OpenVision通用场景无明确方向优先 SigLIP 2综合最优、容错率最高视觉编码器未来发展趋势无独立编码器范式Encoder-FreeEve、Fuyu 等模型直接将图像 Patch 送入大语言模型取消独立视觉编码模块。目前性能仍略低于传统方案但潜力较大。LLM 兼任视觉编码器2025年新出的 LLaViT 架构让语言模型同时承担视觉编码任务通过独立视觉QKV与双向注意力建模图像特征3B小模型可对标7B级多模态模型效果。原生多模态联合预训练Gemini、Chameleon 主流路线编码器与LLM从0开始联合预训练、全程协同优化是未来三年的主流架构。
2024–2026视觉编码器十大变体技术梳理
发布时间:2026/6/1 19:40:27
CLIP之后如何迭代2024–2026视觉编码器十大变体技术梳理视觉编码器的作用将图像数据转化为LLM可以理解的视觉Token特征序列。流程图像224×224×3→ 视觉编码器ViT/ConvNet→ 视觉特征 Token → 投影层适配 → 输入 LLMVLM 80%的性能瓶颈来自视觉编码器而非语言模型。根据训练范式差异可将当前主流视觉编码器分为对比学习、自监督学习、高分辨率优化、多专家混合四大流派。流派一对比学习流派CLIP 一脉核心思路基于图文对训练通过对比损失拉近匹配图文特征、推远无关特征是语义对齐能力最强的技术路线。1. CLIPOpenAI, 2021架构ViT-L/14约300M参数训练方式4亿图文对 对比损失优势图文语义匹配效果经典、稳定短板空间感知能力弱固定224×224低分辨率细节捕捉差现状实际部署已淘汰仅作为论文基线用于对比2. SigLIPGoogle, 2023架构ViT-So400M核心改进用 Sigmoid 损失替换原版 Softmax 对比损失大幅降低计算开销优势训练效率更高整体性能较 CLIP 提升10%以上现状LLaVA-1.6、LLaVA-Next 标配视觉编码器3. SigLIP 2Google, 2025核心升级在对比损失基础上新增文本描述损失、自蒸馏、掩码预测多任务训练性能亮点仅400M参数在绝大多数VLM任务中效果优于6B参数的 InternViT-6B现状2025年对比学习路线最优通用编码器适用性极强科研实操建议做实验、跑基线建议同时对比 CLIP 与 SigLIP既保证学术工作的延续性也符合当前前沿性能标准。流派二自监督学习流派DINO 一脉核心思路无需文本标注仅依靠图像自身信息做自监督学习几何、空间、分割感知能力极强。1. DINOv2Meta, 2023架构ViT-L/14、ViT-g/14训练方式1.42亿无标注图像 自监督蒸馏优势物体定位、语义分割、深度估计、场景几何理解能力突出短板无图文对齐训练纯语义识别任务表现一般现状所有需要空间感知、精准定位的多模态模型基本都会融合 DINOv2 特征2. DINOv3Meta, 2025核心升级扩大训练数据规模强化密集预测、细粒度特征提取能力适配场景具身智能、机器人 VLA、动态场景感知等前沿方向核心区别CLIP/SigLIP 擅长识别「物体是什么」DINO 系列擅长判断「物体在哪里、形态如何」。高性能 SOTA 模型基本都会融合两类特征。流派三高分辨率优化流派原版 CLIP 仅支持224×224输入在文档、小目标、高清图像场景严重失效。该流派专门解决细粒度识别、高清视觉问题。1. EVA-CLIP北智院, 2023架构超大 ViT-g 模型参数超1B训练特点MIM掩码预训练 CLIP图文微调兼顾性能与部署可行性现状InternVL 早期版本的核心视觉编码器2. InternViT-6B上海AI Lab, 2024架构6B超大参数视觉模型训练方式渐进式蒸馏 适配大语言模型特征对齐优势支持动态分辨率最高可处理4K高清图像现状InternVL2、InternVL3 核心编码器国产主流方案客观短板参数体量巨大但多数通用任务性能不及轻量化的 SigLIP 23. AnyRes 动态分辨率策略2024不属于新编码器而是通用性极强的工程优化方案。核心逻辑将高清大图切分为多个局部 Patch独立编码后融合特征优势零成本改造原有模型快速适配高分辨率场景现状LLaVA-Next、Qwen2-VL、InternVL2 全部采用场景结论OCR、文档解析、医学影像、遥感图像等任务中分辨率的影响远大于模型参数量AnyRes 是2024年性价比最高的工程优化技巧。流派四多视觉专家混合流派MoVE单一编码器均存在短板语义、几何、分割、文档理解无法兼顾。多专家方案通过多编码器并联实现能力互补。1. Eagle / MoVA / Cambrian-12024–2025架构思路并联 CLIP语义、DINOv2几何、SAM分割、Pix2Struct文档等多个专用编码器核心技术路由网络动态调度不同模块的特征按需融合优势OCR、定位、几何推理、图文匹配全面均衡短板计算量大、推理速度慢、资源开销高现状2025年顶会主流刷分方案多模块融合是性能提升的通用套路2. OpenVisionUCSC, 2025特点训练数据、训练配方完全开源复现性拉满性能B/16架构384分辨率下多项指标超越原生 CLIP适用场景学术复现、公平对比实验无训练黑箱视觉编码器选型方案OCR / 文档理解AnyRes 动态分辨率 SigLIP 2分割 / 具身智能 / VLA机器人DINOv2 / DINOv3中文场景 / 4K高清图像InternViT顶会刷分 / 性能极致优化MoVE多编码器混合方案学术复现 / 公平对比实验OpenVision通用场景无明确方向优先 SigLIP 2综合最优、容错率最高视觉编码器未来发展趋势无独立编码器范式Encoder-FreeEve、Fuyu 等模型直接将图像 Patch 送入大语言模型取消独立视觉编码模块。目前性能仍略低于传统方案但潜力较大。LLM 兼任视觉编码器2025年新出的 LLaViT 架构让语言模型同时承担视觉编码任务通过独立视觉QKV与双向注意力建模图像特征3B小模型可对标7B级多模态模型效果。原生多模态联合预训练Gemini、Chameleon 主流路线编码器与LLM从0开始联合预训练、全程协同优化是未来三年的主流架构。