多模态 Embedding、CLIP 概念 内嵌补充对比文本 Embedding总结异同点一、回顾基础什么是 Embedding先复习你学过的文本 Embedding 将文字、词语、句子转化为固定维度的浮点向量。核心作用把人类语言变成模型可计算、可比对的数字应用文本检索、语义匹配、RAG 向量库存储、相似度计算。多模态 Embedding是它的延伸 不止文本还能把图片、图文组合都转为同维度向量实现跨模态语义匹配。二、多模态 Embedding 分类1. 图像 Embedding输入整张图片 输出图片语义向量 逻辑图像编码器提取画面内容、主体、场景、风格等特征压缩为向量。 举例一张 “书桌 电脑” 的图片生成的向量会和文字电脑桌面语义接近。2. 图文联合 Embedding输入图片 描述文本输出统一空间下的向量 核心目标让语义相近的图和文向量距离也相近这也是 CLIP 的核心思想。三、文本 Embedding vs 多模态 Embedding重点对比表格对比项文本 Embedding多模态 Embedding处理对象仅文字词 / 句 / 段落文本、图像支持图文混合编码器文本模型Transformer图像编码器 文本编码器向量空间纯文本语义空间统一跨模态语义空间核心能力文本和文本做相似度匹配图 ↔ 图、文 ↔ 文、图 ↔ 文双向匹配典型用途文本 RAG、文本查重、语义检索图文检索、多模态 RAG、图片分类、以图搜文 / 以文搜图四、CLIP 模型多模态经典标杆1. 定位OpenAI 开源的图文匹配模型是目前绝大多数多模态 Embedding、图文检索、多模态 RAG 的底层基础。2. 整体结构由两个独立编码器组成文本编码器基于 Transformer把句子转为文本向量图像编码器基于卷积 / 视觉模型把图片转为图像向量两个编码器输出的向量维度完全一致处在同一个向量空间。3. 核心原理训练目标 让图片和它对应的描述文字向量距离尽可能近 让不匹配的图文向量距离尽可能远。举个例子图片猫咪 文本一只小猫→ 向量相似度高图片猫咪 文本一辆汽车→ 向量相似度低4. 两大核心使用场景项目高频零样本图片分类不用单独训练分类器直接用文字标签猫/狗/桌子和图片做匹配完成分类。跨模态检索以文搜图输入文字召回语义最接近的图片以图搜文输入图片召回匹配的文本描述多模态 RAG图文知识库检索五、CLIP 特点总结强通用性不需要针对具体场景微调开箱即用做图文匹配向量互通图、文向量同维度可直接计算余弦相似度局限不擅长图像细节理解、OCR、复杂推理这类场景要搭配专门 OCR 大模型。