Embedding 到底是什么:从词向量到句子向量、相似度与局限性 1 几何直觉Embedding 把离散符号映射到 (\mathbb{R}^d) 中的稠密向量使语义相近者距离更近以训练目标度量。Word2Vec 时代主要是词级现代检索常用句子/段落级向量由深度编码器产生。2 相似度度量常用余弦相似度方向一致或点积若向量已归一化两者等价于单调相关。欧氏距离也可用但要注意向量范数是否被约束。度量选择与索引结构内积 vs L2要一致否则近似检索会错位。3 训练目标多样性对比学习InfoNCE拉近正样本、推开负样本双塔召回query/doc 各自编码马尔可夫掩码语言模型也可衍生句向量。同一向量空间能否通用跨任务并不保证。4 域偏移用通用语料训练的向量在金融、医疗术语上可能失真。领域继续训练或专用模型往往必要否则 RAG 检索显著掉线。5 对称与非对称「问题→文档」检索常用非对称编码器query 与 passage 不同塔对称模型更简单但问答匹配弱。混用模型会导致分数不可比。5.1 向量维度与索引成本维度越高未必越好过高噪声维度稀释密度且索引内存线性上涨。要在召回评测与资源曲线之间扫维度与量化等级。5.2 归一化策略有些管道强制 L2 normalize有些不做混合会导致分数阈值失效。上线统一规范化并在日志记录版本号。5.3 多语言向量多语言模型若未覆盖某语种会出现整体偏移。语种检测 分模型路由常见。5.4 负样本挖掘对比学习质量取决于负样本难度全随机负样本太简单。hard negative mining提升判别边界但训练不稳定需调温。6 小结Embedding 是语义检索与聚类的底座相似度不是魔法距离训练目标与域匹配决定上限。检索链路要与度量、索引、数据域同源配置否则高分噪声频发。6.1 与生成模型的分工Embedding 负责「找」生成模型负责「编」。不要用生成模型替代向量召回做海量初筛成本与延迟都会炸。7 聚类与异常检测侧应用同一嵌入空间可做用户行为聚类、日志模板归类。要注意簇中心漂移嵌入模型升级后簇划分改变下游规则需重新标定。版本锁 周期性重聚类是运维常识。8 向量数据库并非魔法HNSW/IVF 只是近似最近邻高召回依赖参数efConstruction、M、nprobe调优。强行追求超高召回会线性抬高延迟。SLA 表里要写清 QPS 与召回 trade-off而不是只写「毫秒级」。9 跨模态嵌入简述图文共享嵌入CLIP 类可把图像与文本映射到同空间做检索但与专用文本向量相比纯文本检索未必更强。任务专用选型优于「一个大嵌入走天下」。10 ANN 搜索参数如何影响召回efSearchHNSW越大召回越高但查询越慢nprobeIVF增大同理。上线前应用验证集扫参数曲线记录 Recallk 与 P99 延迟交点作为默认配置而不是拍脑袋设「官方推荐值」。11 负样本策略影响语义几何对比学习若负样本太简单向量空间边际不清若太难全批次随机训练不稳。课程式提升负样本难度在工业界行之有效。Embedding 质量不只取决于 backbone还取决于 batch 构造。12 法规检索场景的特殊处理法条用语严谨口语查询embedding可能偏离。混合检索 同义词表 人工审核队列通常优于纯向量 Top-k。13 向量漂移模型升级后的运维动作Embedding 服务升级不是「换权重文件」这么简单旧向量与新向量不在同一几何里存量索引要么全量重嵌入 重建索引要么维护双版本并行灰度。中间态常见事故是阈值沿用旧值导致召回噪声暴增或断崖式下降。建议在验证集上重扫 Recallk–延迟曲线记录新版本默认阈值与拒识率再切换生产路由。14 批大小与难负样本训练细节的工业含义对比学习 batch 内负样本数量直接影响判别边界太小则「伪负样本」过多拉坏几何太大则显存吃紧。难负样本挖掘若不加 curriculum早期训练会不稳定。日志应记录负样本来源随机/硬负/跨 batch queue与温度否则无法复现线上向量质量。文本截断策略也要固定同一文档不同截断窗口会得到不一致向量长文档应分段池化或滑动窗口聚合并在检索侧用同样规则。15 相关性 vs 相似度不要把「像」当成「对」向量近邻只说明表征接近不说明答案正确RAG 里常见「检索到了相似废话」。缓解路径包括重排序 cross-encoder、基于引用 span 的打分、以及在生成侧要求「若文档未覆盖则拒答」。Embedding 团队要与生成团队对齐拒答策略否则向量召回优化会被幻觉吞掉。