Python_LangChain_RAG知识库

发布时间：2026/5/30 9:22:31

Python LangChain 搭建企业级 RAG 知识库完整代码CSDN 专栏Python 实战与解决问题作者[小汤包快跑]发布时间2026年标签Python, LangChain, RAG, 知识库, 向量数据库, 大模型一、前言你是否遇到过这样的场景公司有大量内部文档员工查找信息效率低下客服需要快速回答产品问题但文档分散各处想做一个智能问答系统但不知道如何下手RAGRetrieval-Augmented Generation检索增强生成就是解决这类问题的最佳方案。今天我将带你用Python LangChain搭建一个企业级 RAG 知识库让 AI 能够基于你的私有文档回答问题。本文包含完整代码可直接运行二、什么是 RAG2.1 RAG 核心原理用户提问 → 检索相关文档 → 将文档问题一起送给大模型 → 生成答案为什么需要 RAG✅ 大模型有知识截止日期无法获取最新信息✅ 企业私有数据不能上传到公网大模型✅ 减少大模型幻觉提高回答准确性2.2 RAG 架构图┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │ 文档加载 │────▶│ 文本分割 │────▶│ 向量化存储 │ │ (PDF/Word) │ │ (Chunking) │ │ (Vector DB) │ └─────────────┘ └─────────────┘ └──────┬──────┘ │ ┌─────────────┐ ┌─────────────┐ ┌──────▼──────┐ │ 生成答案 │◀────│ 构建Prompt │◀────│ 相似度检索 │ │ (LLM生成) │ │ (ContextQA) │ │ (Top-K) │ └─────────────┘ └─────────────┘ └─────────────┘三、环境准备3.1 安装依赖pipinstalllangchain langchain-community langchain-openai pipinstallchromadb sentence-transformers pipinstallpypdf unstructured3.2 目录结构rag_project/ ├── documents/ # 存放知识库文档 │ ├── 产品手册.pdf │ └── 常见问题.docx ├── vector_store/ # 向量数据库存储 ├── rag_system.py # 主程序 └── config.py # 配置文件四、完整代码实现4.1 配置文件 (config.py)# config.pyimportos# API 配置DEEPSEEK_API_KEYyour-deepseek-api-keyDEEPSEEK_BASE_URLhttps://api.deepseek.com/v1# 模型配置EMBEDDING_MODELBAAI/bge-large-zh-v1.5# 中文嵌入模型LLM_MODELdeepseek-chat# 向量数据库配置VECTOR_DB_PATH./vector_store# RAG 参数CHUNK_SIZE500# 文本块大小CHUNK_OVERLAP50# 文本块重叠大小TOP_K5# 检索文档数量4.2 主程序 (rag_system.py) 企业级 RAG 知识库系统基于 LangChain ChromaDB DeepSeek importosfromtypingimportList,Optionalfromlangchain_community.document_loadersimport(PyPDFLoader,UnstructuredWordDocumentLoader,TextLoader,DirectoryLoader)fromlangchain.text_splitterimportRecursiveCharacterTextSplitterfromlangchain_community.embeddingsimportHuggingFaceEmbeddingsfromlangchain_community.vectorstoresimportChromafromlangchain_openaiimportChatOpenAIfromlangchain.chainsimportRetrievalQAfromlangchain.promptsimportPromptTemplatefromlangchain.schemaimportDocument# 配置 DEEPSEEK_API_KEYyour-deepseek-api-keyDEEPSEEK_BASE_URLhttps://api.deepseek.com/v1classRAGKnowledgeBase:RAG 知识库类def__init__(self,persist_directory:str./vector_store,embedding_model:strBAAI/bge-large-zh-v1.5): 初始化 RAG 知识库 Args: persist_directory: 向量数据库持久化目录 embedding_model: 嵌入模型名称 self.persist_directorypersist_directory self.embedding_model_nameembedding_model# 初始化嵌入模型print(正在加载嵌入模型...)self.embeddingsHuggingFaceEmbeddings(model_nameembedding_model,model_kwargs{device:cpu},encode_kwargs{normalize_embeddings:True})# 初始化向量数据库ifos.path.exists(persist_directory):print(正在加载已有向量数据库...)self.vector_storeChroma(persist_directorypersist_directory,embedding_functionself.embeddings)else:print(创建新的向量数据库...)self.vector_storeNone# 初始化大模型print(正在连接大模型...)self.llmChatOpenAI(modeldeepseek-chat,base_urlDEEPSEEK_BASE_URL,api_keyDEEPSEEK_API_KEY,temperature0.7,max_tokens2000)print(✅ 知识库初始化完成)defload_documents(self,directory:str)-List[Document]: 加载目录中的所有文档 Args: directory: 文档目录路径 Returns: 文档列表 documents[]# 支持的文件类型loaders{.pdf:PyPDFLoader,.docx:UnstructuredWordDocumentLoader,.txt:TextLoader,.md:TextLoader}print(f正在扫描目录:{directory})forroot,dirs,filesinos.walk(directory):forfileinfiles:file_pathos.path.join(root,file)file_extos.path.splitext(file)[1].lower()iffile_extinloaders:try:print(f 正在加载:{file})loaderloaders[file_ext](file_path)docsloader.load()# 添加元数据fordocindocs:doc.metadata[source]filedoc.metadata[file_path]file_path documents.extend(docs)print(f ✅ 成功加载{len(docs)}页/段)exceptExceptionase:print(f ❌ 加载失败:{file}, 错误:{e})print(f\n共加载{len(documents)}个文档片段)returndocumentsdefsplit_documents(self,documents:List[Document],chunk_size:int500,chunk_overlap:int50)-List[Document]: 将文档分割成小块 Args: documents: 原始文档列表 chunk_size: 每块大小字符数 chunk_overlap: 块之间重叠大小 Returns: 分割后的文档列表 print(f\n正在分割文档 (块大小:{chunk_size}, 重叠:{chunk_overlap})...)text_splitterRecursiveCharacterTextSplitter(chunk_sizechunk_size,chunk_overlapchunk_overlap,length_functionlen,separators[\n\n,\n,。,, ,])chunkstext_splitter.split_documents(documents)print(f✅ 分割完成共{len(chunks)}个文本块)returnchunksdefcreate_vector_store(self,documents:List[Document]): 创建向量数据库 Args: documents: 文档列表 print(\n正在创建向量数据库...)self.vector_storeChroma.from_documents(documentsdocuments,embeddingself.embeddings,persist_directoryself.persist_directory)# 持久化保存self.vector_store.persist()print(f✅ 向量数据库创建完成已保存到:{self.persist_directory})defadd_documents(self,directory:str): 添加新文档到知识库 Args: directory: 文档目录路径 # 加载文档documentsself.load_documents(directory)ifnotdocuments:print(⚠️ 未找到可加载的文档)return# 分割文档chunksself.split_documents(documents)# 创建或更新向量数据库ifself.vector_storeisNone:self.create_vector_store(chunks)else:print(\n正在添加新文档到向量数据库...)self.vector_store.add_documents(chunks)self.vector_store.persist()print(✅ 新文档添加完成)defquery(self,question:str,top_k:int5,return_source:boolTrue)-dict: 查询知识库 Args: question: 用户问题 top_k: 检索文档数量 return_source: 是否返回来源文档 Returns: 包含答案和来源的字典 ifself.vector_storeisNone:return{answer:知识库为空请先添加文档,sources:[]}# 自定义 Prompt 模板prompt_template你是一个专业的知识库问答助手。请基于以下参考信息回答问题。参考信息 {context} 用户问题{question} 回答要求 1. 基于参考信息给出准确、专业的回答 2. 如果参考信息不足以回答问题请明确说明 3. 回答要简洁明了突出重点 4. 可以适当使用列表、表格等格式增强可读性请回答PROMPTPromptTemplate(templateprompt_template,input_variables[context,question])# 创建检索链qa_chainRetrievalQA.from_chain_type(llmself.llm,chain_typestuff,retrieverself.vector_store.as_retriever(search_kwargs{k:top_k}),return_source_documentsreturn_source,chain_type_kwargs{prompt:PROMPT})# 执行查询print(f\n 正在查询:{question})resultqa_chain.invoke({query:question})response{answer:result[result],sources:[]}ifreturn_sourceandsource_documentsinresult:fordocinresult[source_documents]:response[sources].append({content:doc.page_content[:200]...,source:doc.metadata.get(source,未知)})returnresponsedefsimilarity_search(self,query:str,k:int5)-List[Document]: 相似度搜索仅检索不生成答案 Args: query: 查询文本 k: 返回结果数量 Returns: 相似文档列表 ifself.vector_storeisNone:return[]returnself.vector_store.similarity_search(query,kk)# 使用示例 defmain():主函数# 初始化知识库kbRAGKnowledgeBase(persist_directory./vector_store,embedding_modelBAAI/bge-large-zh-v1.5)# 添加文档首次运行# kb.add_documents(./documents)# 交互式查询print(\n*50)print( 企业知识库问答系统)print(*50)print(输入 quit 退出\n)whileTrue:questioninput(\n请输入问题: ).strip()ifquestion.lower()quit:print(再见)breakifnotquestion:continue# 查询resultkb.query(question,top_k5)# 显示答案print(\n-*50)print( 回答:)print(-*50)print(result[answer])# 显示来源ifresult[sources]:print(\n 参考来源:)fori,sourceinenumerate(result[sources],1):print(f [{i}]{source[source]})if__name____main__:main()五、快速开始5.1 准备文档将你的文档PDF、Word、TXT放入documents目录。5.2 首次运行# 修改 main 函数取消注释添加文档的代码defmain():kbRAGKnowledgeBase()# 首次运行添加文档kb.add_documents(./documents)# 取消注释# ... 后续代码5.3 运行程序python rag_system.py六、进阶功能6.1 支持更多文档类型fromlangchain_community.document_loadersimport(CSVLoader,JSONLoader,UnstructuredHTMLLoader)# CSV 文件loaderCSVLoader(file_pathdata.csv)# JSON 文件loaderJSONLoader(file_pathdata.json,jq_schema.[])# HTML 文件loaderUnstructuredHTMLLoader(file_pathpage.html)6.2 使用其他向量数据库# FAISS本地、轻量fromlangchain_community.vectorstoresimportFAISS vector_storeFAISS.from_documents(chunks,embeddings)# Pinecone云端fromlangchain_pineconeimportPineconeVectorStore vector_storePineconeVectorStore.from_documents(chunks,embeddings,index_namemy-index)# Milvus企业级fromlangchain_milvusimportMilvus vector_storeMilvus.from_documents(chunks,embeddings)6.3 多轮对话支持fromlangchain.memoryimportConversationBufferMemoryfromlangchain.chainsimportConversationalRetrievalChain# 添加记忆功能memoryConversationBufferMemory(memory_keychat_history,return_messagesTrue)# 使用 ConversationalRetrievalChainqa_chainConversationalRetrievalChain.from_llm(llmllm,retrievervector_store.as_retriever(),memorymemory)七、性能优化建议7.1 文本分割策略场景chunk_sizechunk_overlap说明问答系统300-50050较小的块提高精度摘要生成1000-2000100较大的块保留上下文代码文档500-800100中等大小平衡精度和上下文7.2 检索优化# 使用 MMR最大边际相关性检索retrievervector_store.as_retriever(search_typemmr,search_kwargs{k:5,fetch_k:20,lambda_mult:0.5})# 使用相似度阈值过滤retrievervector_store.as_retriever(search_typesimilarity_score_threshold,search_kwargs{score_threshold:0.7})7.3 嵌入模型选择模型语言特点适用场景BAAI/bge-large-zh-v1.5中文中文效果优秀中文知识库text-embedding-3-small多语言OpenAI 官方多语言混合m3e-base中文轻量快速资源受限环境八、常见问题Q1: 加载模型时内存不足# 使用更小的模型embedding_modelBAAI/bge-small-zh-v1.5# 或限制并发os.environ[TOKENIZERS_PARALLELISM]falseQ2: 回答质量不高优化文本分割调整 chunk_size 和 chunk_overlap增加 top_k检索更多相关文档优化 Prompt给模型更明确的指令清洗数据去除文档中的噪声页眉页脚等Q3: 如何更新知识库# 添加新文档kb.add_documents(./new_documents)# 删除所有数据重新创建importshutil shutil.rmtree(./vector_store)kbRAGKnowledgeBase()# 重新初始化kb.add_documents(./documents)九、总结本文介绍了如何用LangChain Python搭建企业级 RAG 知识库。核心流程文档加载支持 PDF、Word、TXT 等多种格式文本分割将长文档切分成适合检索的小块向量化使用嵌入模型将文本转为向量存储检索使用向量数据库高效存储和检索问答生成结合检索结果和大模型生成答案完整代码已上传 GitHub[你的仓库链接]十、下篇预告下一篇文章我将介绍如何用Python AI 自动化生成周报/日报让 AI 帮你自动整理工作内容、生成报告。关注专栏不错过精彩内容推荐阅读LangChain RAG 官方教程ChromaDB 文档BGE 嵌入模型有问题欢迎在评论区留言我会逐一回复版权声明本文为博主原创文章转载请注明出处。

避坑指南：在Vivado 2021.2中为MPSOC配置HPC接口缓存一致性（含FSBL与App代码）

Vivado 2021.2中MPSOC HPC接口缓存一致性实战避坑指南在嵌入式系统开发中，缓存一致性一直是困扰开发者的难题。当我们在Xilinx MPSOC平台上使用HPC接口时，这个问题尤为突出。本文将深入探讨如何正确配置HPC接口的缓存一致性功能，避免那些可能…

2026/5/30 9:21:51 阅读更多

从零封装一个AS608的HAL库驱动：STM32CubeMX工程模板与可移植性设计详解

从零构建AS608指纹模块的HAL库驱动：工程架构与跨平台设计实战在嵌入式开发领域，指纹识别模块的集成一直是智能设备开发中的关键环节。AS608作为一款高性价比的光学指纹识别模块，凭借其稳定的性能和简洁的通信协议，成为了众多STM32…

2026/5/30 9:21:51 阅读更多

Linux开发者的救星：用Remmina搞定公司Windows堡垒机远程连接（附文件互传保姆级教程）

Linux开发者的救星：用Remmina搞定公司Windows堡垒机远程连接（附文件互传保姆级教程）作为一名Linux主力开发者，每天最头疼的莫过于公司IT环境对Windows的偏爱。当同事们轻松点击官方远程工具连接堡垒机时，我们却要面对&…

2026/5/30 9:21:31 阅读更多

C51编译器?CO?段解析与优化实践

1. C51编译器中的?CO?段解析在Keil C51开发环境中，编译后的程序会生成各种内存段（segments），其中?CO?段是一个常见但容易被忽视的部分。这个段名中的问号实际上是编译器使用的命名约定，表示这是一个可重定位的段&…

2026/5/30 10:10:13 阅读更多

告别抓包烦恼：手把手教你用Mitmproxy搞定iOS/安卓App接口调试（附证书安装避坑指南）

移动端开发者必备：Mitmproxy高阶调试与安全实践指南引言：为什么移动端调试需要专业工具？在移动应用开发过程中，网络请求调试一直是开发者面临的主要挑战之一。与传统的网页开发不同，移动端应用运行在封闭的沙盒环境中&…

2026/5/30 10:10:13 阅读更多

LTX2.3 开源视频生成模型技术介绍与本地部署教程

LTX2.3 是 Lightricks 推出的开源音视频生成模型，支持文生视频、图生视频、音频驱动视频生成，具备原生音画同步、4K 分辨率及竖屏比例适配能力，可在消费级独立显卡上完成本地部署，提供一键整合包降低部署门槛。一、LTX2.3 模型基…

2026/5/30 10:09:11 阅读更多

Windows上PDF处理太复杂？3分钟搞定Poppler零配置部署方案

Windows上PDF处理太复杂？3分钟搞定Poppler零配置部署方案【免费下载链接】poppler-windows Download Poppler binaries packaged for Windows with dependencies 项目地址: https://gitcode.com/gh_mirrors/po/poppler-windows 还在为Windows环境下PDF处理的…

2026/5/30 10:08:51 阅读更多

代码切换如何优化大语言模型推理：机制、度量与微调策略

1. 项目概述：代码切换如何成为大语言模型推理的“催化剂”在构建和优化大语言模型（LLM）时，我们常常聚焦于模型架构、训练数据和推理策略，但有一个看似边缘、实则影响深远的现象常被忽视：代码切换。这不是指…

2026/5/30 10:08:51 阅读更多

OnmyojiAutoScript黑蛋领取功能深度优化：解决每日免费黑蛋获取异常问题

OnmyojiAutoScript黑蛋领取功能深度优化：解决每日免费黑蛋获取异常问题【免费下载链接】OnmyojiAutoScript Onmyoji Auto Script | 阴阳师脚本项目地址: https://gitcode.com/gh_mirrors/on/OnmyojiAutoScript 阴阳师手游中的黑蛋（Black Daruma…

2026/5/30 10:08:30 阅读更多

Win11/Win10深度学习环境搭建：实测PyCharm远程连接WSL2下的CUDA，性能比虚拟机强多少？

Win11/Win10深度学习环境终极对决：WSL2 CUDA vs 虚拟机 vs 双系统实测指南当开发者需要在Windows系统上进行深度学习开发时，通常会面临三种选择：虚拟机方案、双系统方案和WSL2方案。本文将基于实际测试数据，从GPU性能、开发便利性…

2026/5/30 0:00:39 阅读更多

SketchUp STL插件终极指南：3D打印工作流完全掌握

SketchUp STL插件终极指南：3D打印工作流完全掌握【免费下载链接】sketchup-stl A SketchUp Ruby Extension that adds STL (STereoLithography) file format import and export. 项目地址: https://gitcode.com/gh_mirrors/sk/sketchup-stl SketchUp STL插件…

2026/5/30 0:00:39 阅读更多

基于ICL8038的多波形信号发生器：从原理到制作的完整指南

1. 项目概述：从零构建一个基于ICL8038的多波形信号发生器在电子实验、设备调试乃至生物医学信号处理领域，一个稳定可靠、波形纯净的信号源是不可或缺的“心脏”。无论是用于测试放大器的频率响应，还是模拟生理电信号进行算法研究，…

2026/5/30 0:01:40 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/29 8:13:02 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/29 8:13:55 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/29 8:13:54 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/30 3:46:38 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/30 3:48:20 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/29 13:19:05 阅读更多

相关文章