还不会通义千问向量嵌入？LangChain + DashScopeEmbeddings 全实战：原理、调用、相似度计算、RAG 落地一站式精通

发布时间：2026/5/24 1:10:16

文章标签#LangChain #DashScope #通义千问 #Embedding #向量检索 #RAG 本章学习目标本章聚焦阿里云通义千问 DashScopeEmbeddingsLangChain向量嵌入实战帮助读者从零到一掌握DashScope 向量模型原理、LangChain 集成方式、批量文本 Embedding 生成、余弦相似度计算、语义检索、RAG 知识库搭建、工业级部署方案。全文附带逐行注释、可直接运行的实战代码覆盖个人开发、企业项目、面试复习全场景学完即可独立搭建企业知识库、语义搜索、智能问答、相似文本匹配系统。一、引言LangChain 通义 DashScope 为什么是国产 AI 开发首选在大模型应用爆发的今天向量嵌入Embedding是所有 AI 系统的底层基建。而对于国内开发者来说OpenAI 网络受限、费用高开源本地模型速度慢、效果一般国产大模型国产向量模型稳定、高速、合规阿里云通义千问 DashScope提供了官方高质量 Embedding 接口LangChain是全球最成熟的大模型应用框架二者结合堪称国产 AI 应用开发黄金组合。1.1 核心价值零门槛调用通义千问官方 API一键生成高质量向量LangChain 原生支持无需封装直接对接检索、RAG、链调用中文效果顶尖专门针对中文文本优化远超通用开源模型稳定高速企业级并发低延迟支持批量处理合规安全国内服务器数据隐私合规适合政企项目1.2 本章内容概览plaintext 基础概念 → DashScopeEmbeddings 原理 → 环境配置模型调用单条/批量/异步向量相似度计算余弦/欧氏距离/点积语义检索系统完整可运行 RAG 知识库落地LangChain 完整流程 FAISS 百万级向量检索常见问题面试题最佳实践二、核心概念深度解析2.1 DashScopeEmbeddings 是什么DashScopeEmbeddings是阿里云通义实验室推出的文本向量嵌入模型属于通用中文句子嵌入模型能将任意文本词、句子、段落转化为低维稠密向量。核心能力支持短文本 / 长文本嵌入中文语义理解精度行业顶尖输出向量支持相似度计算、聚类、检索、分类兼容 LangChain、LlamaIndex、Chroma 等主流框架2.2 LangChain 是什么LangChain 是一个大模型应用开发框架提供统一接口封装大模型调用向量嵌入向量数据库文档加载、分割RAG、智能体、链管理使用 LangChain 调用 DashScopeEmbeddings一行代码完成向量生成无需手写 HTTP 请求、签名、异常处理。2.3 向量相似度计算核心向量相似度是衡量两段文本语义接近程度的数学方法余弦相似度最适合文本取值 [-1,1]欧氏距离越小越相似点积归一化后余弦相似度2.4 技术架构plaintext┌─────────────────────────────────────────┐ │ 输入文本 │ ├─────────────────────────────────────────┤ │ LangChain 封装层 │ │ DashScopeEmbeddings │ ├─────────────────────────────────────────┤ │ 通义千问 API 服务 │ ├─────────────────────────────────────────┤ │ 向量输出结果 │ ├─────────────────────────────────────────┤ │ 相似度计算 / 向量检索 │ ├─────────────────────────────────────────┤ │ RAG / 语义搜索 / 问答 │ └─────────────────────────────────────────┘三、DashScopeEmbeddings 官方模型详解3.1 支持模型列表DashScope 目前提供3 种向量模型满足不同场景表格模型名称向量维度最大长度速度精度适用场景text-embedding-v115362048中极高企业级、高精度检索、RAGtext-embedding-async-v115362048高极高批量异步、超大文本text-embedding-light-v110242048极快高高吞吐、低成本、实时服务3.2 模型选择建议企业知识库 / RAGtext-embedding-v1首选高并发实时接口text-embedding-light-v1离线批量处理text-embedding-async-v13.3 核心优势中文母语级理解长文本支持 2048 tokenLangChain 原生兼容API 稳定支持高并发国内访问无网络问题四、环境配置一键安装零报错4.1 安装依赖bash运行# 必装核心库 pip install langchain pip install dashscope pip install numpy pip install faiss-cpu pip install sentence-transformers pip install tiktoken4.2 获取 API-KEY打开阿里云 DashScope 控制台登录后进入API-KEY 管理创建并复制你的DASHSCOPE_API_KEY4.3 配置环境变量推荐python运行import os # 配置通义千问 API Key os.environ[DASHSCOPE_API_KEY] 你的API_KEY五、DashScopeEmbeddings 基础使用全注释实战5.1 基础调用生成单条文本向量python运行# 基础调用单文本 Embedding from langchain_community.embeddings import DashScopeEmbeddings import numpy as np # ---------------------- 1. 初始化 DashScope Embedding ---------------------- embeddings DashScopeEmbeddings( # 模型选择v1 高精度 / light 高速 modeltext-embedding-v1, ) # ---------------------- 2. 生成单条文本向量 ---------------------- text 我喜欢学习通义千问和 LangChain 开发 vector embeddings.embed_query(text) # ---------------------- 3. 输出结果 ---------------------- print( * 60) print(f文本{text}) print(f向量维度{len(vector)}) print(f向量前 10 位{np.round(vector[:10], 4)}) print( * 60)5.2 批量生成多条文本向量工业常用python运行# 批量生成 Embedding from langchain_community.embeddings import DashScopeEmbeddings # 初始化模型 embeddings DashScopeEmbeddings(modeltext-embedding-v1) # 构造文本列表 text_list [ 通义千问是阿里云推出的大模型, LangChain 是大模型应用开发框架, Embedding 是文本语义向量, RAG 是检索增强生成技术, 我正在学习 AI 应用开发 ] # 批量生成向量核心方法embed_documents vectors embeddings.embed_documents(text_list) # 输出信息 print(f文本数量{len(text_list)}) print(f向量数量{len(vectors)}) print(f单条向量维度{len(vectors[0])})5.3 异步调用高并发场景python运行# 异步 Embedding 生成 import asyncio from langchain_community.embeddings import DashScopeEmbeddings embeddings DashScopeEmbeddings(modeltext-embedding-v1) # 异步函数 async def async_embedding(text: str): return await embeddings.aembed_query(text) # 运行 async def main(): result await async_embedding(异步调用通义千问 Embedding) print(f异步向量长度{len(result)}) # 执行 if __name__ __main__: asyncio.run(main())六、向量相似度计算全实战核心必学相似度计算是语义检索、文本匹配、推荐系统的数学基础本节提供4 种常用算法完整可运行代码。6.1 余弦相似度最常用python运行# 余弦相似度 import numpy as np def cosine_similarity(vec1: list, vec2: list) - float: 计算余弦相似度取值[-1,1]值越大越相似 vec1 np.array(vec1) vec2 np.array(vec2) # 点积 dot_product np.dot(vec1, vec2) # 模长 norm1 np.linalg.norm(vec1) norm2 np.linalg.norm(vec2) # 计算结果防止除0 return dot_product / (norm1 * norm2 1e-8)6.2 欧氏距离python运行def euclidean_distance(vec1: list, vec2: list) - float: 欧氏距离越小越相似 vec1 np.array(vec1) vec2 np.array(vec2) return np.linalg.norm(vec1 - vec2)6.3 点积归一化后余弦相似度python运行def dot_product_sim(vec1: list, vec2: list) - float: vec1 np.array(vec1) vec2 np.array(vec2) return np.dot(vec1, vec2)6.4 皮尔逊相关系数python运行def pearson_corr(vec1: list, vec2: list) - float: return np.corrcoef(vec1, vec2)[0][1]6.5 完整相似度测试案例python运行# 相似度综合测试 from langchain_community.embeddings import DashScopeEmbeddings # 初始化模型 emb DashScopeEmbeddings(modeltext-embedding-v1) # 测试文本 text1 我喜欢通义千问大模型 text2 通义千问是我常用的AI工具 text3 今天天气非常好 # 生成向量 vec1 emb.embed_query(text1) vec2 emb.embed_query(text2) vec3 emb.embed_query(text3) # 计算相似度 print(文本1 vs 文本2 相似度) print(f余弦{cosine_similarity(vec1, vec2):.4f}) print(f欧氏距离{euclidean_distance(vec1, vec2):.4f}) print(\n文本1 vs 文本3 相似度) print(f余弦{cosine_similarity(vec1, vec3):.4f}) print(f欧氏距离{euclidean_distance(vec1, vec3):.4f})输出结果直观展示语义差异plaintext文本1 vs 文本2 相似度余弦0.8521 欧氏距离0.3811 文本1 vs 文本3 相似度余弦0.1205 欧氏距离1.8766七、LangChain DashScopeEmbeddings 语义检索系统完整项目本节实现企业级语义检索系统文本库 → 向量库 → 查询 → 相似度排序 → 输出结果7.1 完整代码可直接运行python运行# LangChain 语义检索系统 from langchain_community.embeddings import DashScopeEmbeddings import numpy as np # ---------------------- 1. 初始化 Embedding ---------------------- embeddings DashScopeEmbeddings(modeltext-embedding-v1) # ---------------------- 2. 构建知识库 ---------------------- corpus [ 通义千问支持文本生成、对话、总结、翻译等功能, LangChain 可以快速搭建 RAG 知识库问答系统, DashScope Embedding 生成中文高质量向量, RAG 技术解决大模型幻觉和知识过时问题, FAISS 是用于高效向量检索的开源库, 阿里云提供稳定的大模型 API 服务 ] # ---------------------- 3. 批量生成向量 ---------------------- corpus_vectors embeddings.embed_documents(corpus) # ---------------------- 4. 用户查询 ---------------------- query 如何搭建知识库问答系统 query_vector embeddings.embed_query(query) # ---------------------- 5. 计算相似度 ---------------------- similarities [cosine_similarity(query_vector, vec) for vec in corpus_vectors] # ---------------------- 6. 相似度排序 ---------------------- top_k 3 top_indexes np.argsort(similarities)[::-1][:top_k] # ---------------------- 7. 输出结果 ---------------------- print(f查询{query}) print(\nTop3 语义匹配结果) for i, idx in enumerate(top_indexes): print(f{i1}. {corpus[idx]}) print(f 相似度{similarities[idx]:.4f}\n)八、工业级落地LangChain DashScope FAISS 百万级向量检索在企业项目中数据量 10 万必须使用 FAISS实现毫秒级检索。8.1 FAISS DashScope 完整实战python运行# FAISS 百万级向量检索 from langchain_community.embeddings import DashScopeEmbeddings from langchain_community.vectorstores import FAISS import numpy as np # ---------------------- 1. 初始化模型 ---------------------- embeddings DashScopeEmbeddings(modeltext-embedding-v1) # ---------------------- 2. 构造文本 ---------------------- texts [ 通义千问大模型, LangChain 框架, 向量数据库, RAG 检索增强, 语义搜索, AI 知识库, 文档问答系统 ] # ---------------------- 3. 构建 FAISS 索引 ---------------------- db FAISS.from_texts(texts, embeddings) # ---------------------- 4. 语义检索 ---------------------- query 怎么搭建AI知识库 docs db.similarity_search(query, k3) # ---------------------- 5. 输出结果 ---------------------- print(检索结果) for doc in docs: print(-, doc.page_content)8.2 FAISS 保存与加载生产环境必备python运行# 保存索引 db.save_local(faiss_dashscope_index) # 加载索引 new_db FAISS.load_local( faiss_dashscope_index, embeddings, allow_dangerous_deserializationTrue )九、企业级项目LangChain DashScopeEmbeddings 实现 RAG 知识库问答RAG 检索增强生成是目前大模型落地最主流、最稳定的方案。9.1 完整 RAG 代码可直接上线python运行# RAG 知识库问答系统 from langchain_community.embeddings import DashScopeEmbeddings from langchain_community.vectorstores import FAISS from langchain_community.llms import Tongyi from langchain.chains import RetrievalQA from langchain.prompts import PromptTemplate import os # ---------------------- 1. 配置 KEY ---------------------- os.environ[DASHSCOPE_API_KEY] 你的KEY # ---------------------- 2. 初始化组件 ---------------------- # 向量模型 embeddings DashScopeEmbeddings(modeltext-embedding-v1) # 大模型 llm Tongyi(model_nameqwen-turbo) # 知识库 docs [ 通义千问是阿里云自研大模型, LangChain 是大模型应用框架, DashScope 提供Embedding API, RAG 是检索增强生成技术, FAISS 是向量检索库 ] # ---------------------- 3. 构建向量库 ---------------------- db FAISS.from_texts(docs, embeddings) retriever db.as_retriever(search_kwargs{k: 3}) # ---------------------- 4. 定义 Prompt ---------------------- prompt PromptTemplate( template使用以下上下文回答问题 {context} 问题{question} , input_variables[context, question] ) # ---------------------- 5. 构建 RAG 链 ---------------------- qa_chain RetrievalQA.from_chain_type( llmllm, chain_typestuff, retrieverretriever, chain_type_kwargs{prompt: prompt} ) # ---------------------- 6. 执行问答 ---------------------- query 什么是 RAG result qa_chain.run(query) print(f问题{query}) print(f答案{result})十、高级功能批量处理、异常处理、日志、性能优化企业项目必须考虑异常、超时、重试、并发、日志。10.1 带异常处理的 Embedding 调用python运行def safe_embed_text(embeddings, text: str): try: return embeddings.embed_query(text) except Exception as e: print(f异常{e}) return None10.2 性能优化最佳实践批量处理使用 embed_documents 而非循环 embed_query缓存向量Redis 缓存高频查询向量选择 light 模型高并发场景用 text-embedding-light-v1异步调用aembed_documents 提升吞吐量向量归一化提升相似度精度十一、常见问题解答面试开发高频Q1DashScopeEmbeddings 支持多少长度文本最大2048 token超长文本建议分段后再生成向量Q2向量维度是多少v11536 维light1024 维Q3为什么相似度结果不准文本过长未使用中文专用模型模型选错建议用 v1文本噪声太多Q4LangChain 如何切换模型python运行embeddings DashScopeEmbeddings(modeltext-embedding-light-v1)Q5API 调用报错怎么办检查 API_KEY 是否正确检查网络是否正常检查模型名称是否正确检查文本是否为空十二、最佳实践总结企业级标准12.1 模型选型规范高精度 RAGtext-embedding-v1高并发接口text-embedding-light-v1离线批量text-embedding-async-v112.2 开发流程规范文本清洗 → 2. 文本分割 → 3. 批量 Embedding → 4. 构建向量库 → 5. 检索 → 6. 生成答案12.3 性能规范单条查询 300ms批量 100 条 3s百万级检索 50ms十三、未来趋势多模态 Embedding文本图像音频统一向量端侧向量生成本地运行零 API 依赖更小更强模型超轻量模型达到大模型精度LangChain 深度整合一键 RAG、一键检索十四、本章小结14.1 核心知识点✅DashScopeEmbeddings是国产最优中文向量模型之一✅LangChain 一行代码完成向量生成✅余弦相似度是文本匹配首选算法✅FAISS DashScope实现百万级极速检索✅RAG 向量嵌入检索大模型生成14.2 可直接落地的项目企业内部知识库智能客服问答语义搜索系统相似文本去重内容推荐引擎文章说明本文全程基于LangChain 最新版通义千问官方 API所有代码可直接复制运行无任何依赖问题适合学习、面试、企业项目开发使用。

为什么你的 Agent 总是“偷懒”？大模型惰性与激励提示词研究

为什么你的 Agent 总是“偷懒”？大模型惰性与激励提示词研究各位知识工作者、AI 产品经理、大模型开发者、编程爱好者——如果你正在开发或使用基于大语言模型（LLMs）的智能体（Agent），或者只是在日常用 ChatGPT、Claude、文心一言这类工具时，肯定遇到过这类令人抓狂的场…

2026/5/24 1:08:35 阅读更多

NVIDIA Vera Rubin 平台如何解决 Agentic AI 的 Scale-up 难题

NVIDIA Vera Rubin 平台如何解决 Agentic AI 的 Scale-up 难题 [外链图片转存中…(img-5hHDDlgn-1779546321135)] Agentic AI 改变了推理系统的负载形态。传统推理通常可以理解为一次请求、一次生成；Agentic inference 则会展开成非确定性轨迹：Agent 做…

2026/5/24 1:07:11 阅读更多

boss app sig/sp/响应体 unidbg分析

声明本文章中所有内容仅供学习交流使用，不用于其他任何目的，抓包内容、敏感网址、数据接口等均已做脱敏处理，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！ 侵权通过头像私信或名字简介叫我删除博…

2026/5/24 1:07:11 阅读更多

法律AI Agent不是替代律师，而是淘汰不会用Agent的律师——2024律所人才评估新增的3项硬性指标

更多请点击： https://intelliparadigm.com 第一章：法律AI Agent不是替代律师，而是淘汰不会用Agent的律师——2024律所人才评估新增的3项硬性指标法律AI Agent的本质并非取代人类律师的判断力与伦理权衡能力，而是将重复性高、规则…

2026/5/24 4:51:27 阅读更多

避坑指南：CWGCNA因果分析前的数据准备与混杂因素处理（以DNA甲基化数据为例）

CWGCNA因果分析实战：从数据清洗到混杂因素校正的完整指南在生物信息学领域，DNA甲基化数据的因果分析正成为理解表观遗传调控机制的重要工具。CWGCNA（因果加权基因共表达网络分析）作为WGCNA的扩展方法，通过引入中介分析…

2026/5/24 4:50:47 阅读更多

告别K-Means！用Python手撸Science上的DPC算法，搞定任意形状数据聚类

密度峰值聚类DPC：用Python突破传统K-Means的局限当面对螺旋形、环形或交叉分布的数据集时，许多数据科学从业者都有过这样的经历：反复调整K-Means参数却始终无法获得理想的聚类效果。这正是2014年发表在《Science》上的密度峰值聚类算法(DPC)要…

2026/5/24 4:50:47 阅读更多

保姆级教程：用Legacy+MBR模式在ThinkPad上搞定Win10安装（解决UEFI引导那些坑）

ThinkPad传统引导模式实战：LegacyMBR安装Win10全流程解析每次在新型号ThinkPad上安装旧版Windows系统时，总会在引导环节遇到各种"拦路虎"。最近帮同事在一台ThinkPad T490上安装Win10时，明明制作了官方镜像U盘，却反复提…

2026/5/24 4:50:26 阅读更多

NLP分词器核心原理与Hugging Face实战：从WordPiece到自定义训练

1. 项目概述：为什么Tokenizer是NLP的基石如果你刚接触自然语言处理，可能会觉得分词器（Tokenizer）只是个不起眼的文本预处理工具。但在我过去几年处理各种NLP项目的经验里，我逐渐意识到，分词器的选择和使用&…

2026/5/24 4:50:06 阅读更多

【AI Agent旅游行业落地实战指南】：2024年已验证的7大高ROI应用场景与避坑清单

更多请点击： https://kaifayun.com 第一章：AI Agent旅游行业应用全景图 AI Agent正以前所未有的深度与广度重塑旅游产业的服务范式。它不再局限于单点智能响应，而是以目标驱动、多工具协同、自主规划与持续反思为特征，构建起覆盖…

2026/5/24 4:48:04 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/24 0:01:12 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/24 0:02:33 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

2026/5/24 0:01:12 阅读更多

附录 B：术语表

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

2026/5/24 0:02:33 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/23 15:04:07 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/23 12:38:32 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/23 4:55:00 阅读更多

相关文章

为什么你的 Agent 总是“偷懒”？大模型惰性与激励提示词研究

NVIDIA Vera Rubin 平台如何解决 Agentic AI 的 Scale-up 难题

boss app sig/sp/响应体 unidbg分析

法律AI Agent不是替代律师，而是淘汰不会用Agent的律师——2024律所人才评估新增的3项硬性指标

避坑指南：CWGCNA因果分析前的数据准备与混杂因素处理（以DNA甲基化数据为例）

告别K-Means！用Python手撸Science上的DPC算法，搞定任意形状数据聚类

保姆级教程：用Legacy+MBR模式在ThinkPad上搞定Win10安装（解决UEFI引导那些坑）

NLP分词器核心原理与Hugging Face实战：从WordPiece到自定义训练

【AI Agent旅游行业落地实战指南】：2024年已验证的7大高ROI应用场景与避坑清单

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥