Embedding Model嵌入模型完整讲解句子转向量全过程一、核心作用Embedding 模型的唯一任务把人类可读的文本句子、段落、词语映射成一段固定长度的浮点数字数组也就是向量vector。语义相近的句子 → 向量在高维空间距离很近语义完全无关的句子 → 向量距离很远 这是向量数据库、RAG 检索的底层基础。二、完整转化流程一句话拆解输入句子MacBook本地运行Chroma向量库分词Tokenize模型把句子拆成最小单元token如单词 / 子词MacBook/本地/运行/Chroma/向量库Token 编码每个 token 查表转为唯一数字 ID多层 Transformer 编码计算模型根据上下文理解整句语义融合每个词的语境信息输出句向量Pooling 池化把整段文本所有 token 的隐藏层输出聚合压缩成单一固定维度向量例all-MiniLM 输出 384 维、text-embedding-ada-002 输出 1536 维 最终输出示例384 维简化示意[0.021, -0.134, 0.078, ... , 0.092]三、为什么要把句子变成向量机器无法直接读懂文字计算机只能计算数字不能判断两段文字 “意思像不像”用数学衡量语义相似度拿到两个句子的向量后用余弦相似度 / L2 距离算出 0~1 之间的分数 分数越接近 1 语义高度匹配实现语义检索解决传统关键词缺陷句子 A轻薄笔记本电脑推荐 句子 B平价便携手提办公本 字面无重复关键词但 Embedding 生成的向量距离极近向量数据库可以精准匹配传统倒排索引会直接漏掉。四、常见 Embedding 模型分类1. 开源本地离线模型Chroma 默认all-MiniLM-L6-v2轻量、384 维CPU 就能跑适合本地 RAGbge-small/bge-base中文语义效果更强国内 RAG 主流mxbai-embed-large高精度长文本理解优秀 特点完全离线不上传数据适合 Mac 本地私有知识库2. 云端 API 嵌入模型OpenAI text-embedding-3-small/large阿里通义、腾讯混元、智谱 AI 嵌入接口 特点精度高无需本地显卡调用接口付费数据会上传服务商3. 多模态 EmbeddingCLIP不只转文本图片、文字统一转为同空间向量支持以文搜图、以图搜文。五、结合你之前的句子联动理解straightforward, theres a bit of an overhead in setting this将这句话送入 Embedding 模型 → 生成一条向量再输入同义句The logic is simple, but configuring it takes extra work两个句子字面单词几乎无重合但向量余弦相似度极高Chroma 这类向量库通过对比向量数值就能识别二者表达同一个含义完成语义检索。六、关键特性维度固定同一模型输出向量长度永远一致才能做距离计算语义压缩几百个数字就能承载整段文字的核心含义无人类可读性向量只是一串小数人无法看懂仅用于数学计算上下文感知多义词会根据句子生成不同向量区分歧义 例苹果电脑vs苹果水果模型输出完全不同的向量。七、极简 Python 示例Chroma 内置 Embeddingpython运行import chromadb from chromadb.utils.embedding_functions import SentenceTransformerEmbeddingFunction # 加载本地嵌入模型 emb_fn SentenceTransformerEmbeddingFunction(model_nameall-MiniLM-L6-v2) # 句子转向量 sentence embedding model把句子转化成向量 vec emb_fn([sentence]) # vec 就是句子对应的浮点向量数组 print(len(vec[0])) # 输出384该模型固定384维
Embedding Model(嵌入模型)完整讲解:句子转向量全过程
发布时间:2026/6/29 16:30:51
Embedding Model嵌入模型完整讲解句子转向量全过程一、核心作用Embedding 模型的唯一任务把人类可读的文本句子、段落、词语映射成一段固定长度的浮点数字数组也就是向量vector。语义相近的句子 → 向量在高维空间距离很近语义完全无关的句子 → 向量距离很远 这是向量数据库、RAG 检索的底层基础。二、完整转化流程一句话拆解输入句子MacBook本地运行Chroma向量库分词Tokenize模型把句子拆成最小单元token如单词 / 子词MacBook/本地/运行/Chroma/向量库Token 编码每个 token 查表转为唯一数字 ID多层 Transformer 编码计算模型根据上下文理解整句语义融合每个词的语境信息输出句向量Pooling 池化把整段文本所有 token 的隐藏层输出聚合压缩成单一固定维度向量例all-MiniLM 输出 384 维、text-embedding-ada-002 输出 1536 维 最终输出示例384 维简化示意[0.021, -0.134, 0.078, ... , 0.092]三、为什么要把句子变成向量机器无法直接读懂文字计算机只能计算数字不能判断两段文字 “意思像不像”用数学衡量语义相似度拿到两个句子的向量后用余弦相似度 / L2 距离算出 0~1 之间的分数 分数越接近 1 语义高度匹配实现语义检索解决传统关键词缺陷句子 A轻薄笔记本电脑推荐 句子 B平价便携手提办公本 字面无重复关键词但 Embedding 生成的向量距离极近向量数据库可以精准匹配传统倒排索引会直接漏掉。四、常见 Embedding 模型分类1. 开源本地离线模型Chroma 默认all-MiniLM-L6-v2轻量、384 维CPU 就能跑适合本地 RAGbge-small/bge-base中文语义效果更强国内 RAG 主流mxbai-embed-large高精度长文本理解优秀 特点完全离线不上传数据适合 Mac 本地私有知识库2. 云端 API 嵌入模型OpenAI text-embedding-3-small/large阿里通义、腾讯混元、智谱 AI 嵌入接口 特点精度高无需本地显卡调用接口付费数据会上传服务商3. 多模态 EmbeddingCLIP不只转文本图片、文字统一转为同空间向量支持以文搜图、以图搜文。五、结合你之前的句子联动理解straightforward, theres a bit of an overhead in setting this将这句话送入 Embedding 模型 → 生成一条向量再输入同义句The logic is simple, but configuring it takes extra work两个句子字面单词几乎无重合但向量余弦相似度极高Chroma 这类向量库通过对比向量数值就能识别二者表达同一个含义完成语义检索。六、关键特性维度固定同一模型输出向量长度永远一致才能做距离计算语义压缩几百个数字就能承载整段文字的核心含义无人类可读性向量只是一串小数人无法看懂仅用于数学计算上下文感知多义词会根据句子生成不同向量区分歧义 例苹果电脑vs苹果水果模型输出完全不同的向量。七、极简 Python 示例Chroma 内置 Embeddingpython运行import chromadb from chromadb.utils.embedding_functions import SentenceTransformerEmbeddingFunction # 加载本地嵌入模型 emb_fn SentenceTransformerEmbeddingFunction(model_nameall-MiniLM-L6-v2) # 句子转向量 sentence embedding model把句子转化成向量 vec emb_fn([sentence]) # vec 就是句子对应的浮点向量数组 print(len(vec[0])) # 输出384该模型固定384维