从零搭建 RAG 知识库：让大模型读懂你的私有数据(下篇)

发布时间：2026/5/21 6:54:23

作者简介大家好我是唐璜Taro全栈领域创作者✒️ 个人主页唐璜Taro 支持我点赞评论 ⭐️收藏上一篇讲述了RAGRetrieval-Augmented Generation的理论以及应用场景这一章节讲解RAG的核心实现。四、核心实现4.1 文档加载支持多种格式的文档读取fromlangchain_community.document_loadersimport(PyPDFLoader,# PDFDocx2txtLoader,# WordTextLoader,# TXTCSVLoader,# CSVUnstructuredMarkdownLoader,# Markdown)# 加载单个文件loaderPyPDFLoader(公司制度手册.pdf)documentsloader.load()# 批量加载目录下所有文件fromlangchain_community.document_loadersimportDirectoryLoader loaderDirectoryLoader(./docs,glob**/*.pdf,loader_clsPyPDFLoader,show_progressTrue# 显示进度条)documentsloader.load()print(f共加载{len(documents)}页文档)print(f第一页内容预览{documents[0].page_content[:200]})中文文档注意PDF 中文提取可能乱码推荐先转成 Markdown 或 TXT。4.2 文本分块Chunking这是 RAG 中最关键的环节之一。分块质量直接影响检索效果。fromlangchain.text_splitterimportRecursiveCharacterTextSplitter splitterRecursiveCharacterTextSplitter(chunk_size500,# 每块最大字符数chunk_overlap50,# 块之间重叠字符数length_functionlen,separators[\n\n,\n,。,,,, ,]# 中文优化优先按段落 → 句号 → 换行 → 空格切分)chunkssplitter.split_documents(documents)print(f共生成{len(chunks)}个文本块)分块参数怎么调参数值太小值太大推荐范围chunk_size语义碎片化丢失上下文检索不精确噪音多300 - 1000 字符chunk_overlap块之间语义断裂重复内容多浪费空间50 - 150 字符经验法则问答场景chunk_size 小一些300-500检索更精确总结场景chunk_size 大一些800-1000保留更多上下文4.3 向量化Embedding将文本转成高维向量用于后续相似度计算fromlangchain_community.embeddingsimportHuggingFaceEmbeddings# 首次运行会自动下载模型约 100MBembeddingsHuggingFaceEmbeddings(model_nameBAAI/bge-small-zh-v1.5,model_kwargs{device:cpu},# 无 GPU 用 cpuencode_kwargs{normalize_embeddings:True}# 归一化提高余弦相似度效果)# 测试把一段文字转成向量vectorembeddings.embed_query(什么是退货政策)print(f向量维度{len(vector)})# 512 维print(f前5个值{vector[:5]})Embedding 模型对比模型维度中文效果大小说明BAAI/bge-small-zh512好~100MB推荐入门用BAAI/bge-large-zh1024更好~1.3GB精度更高text-embedding-3-small1536好API 调用OpenAI 付费text-embedding-3-large3072很好API 调用OpenAI 付费最贵4.4 向量数据库存储fromlangchain_community.vectorstoresimportChroma# 创建并持久化vectorstoreChroma.from_documents(documentschunks,embeddingembeddings,persist_directory./chroma_db,# 本地存储目录collection_namemy_knowledge# 集合名称)print(f成功索引{vectorstore._collection.count()}个文本块)# 加载已有数据库下次运行时不需要重新建库# vectorstore Chroma(# persist_directory./chroma_db,# embedding_functionembeddings,# collection_namemy_knowledge# )4.5 检索测试# 基础检索resultsvectorstore.similarity_search(退货政策,k3)fori,docinenumerate(results):print(f\n--- 结果{i1}---)print(f来源{doc.metadata.get(source,未知)})print(f内容{doc.page_content[:200]})4.6 构建 RAG 问答链fromlangchain_openaiimportChatOpenAIfromlangchain.chainsimportRetrievalQAfromlangchain.promptsimportPromptTemplate# 初始化大模型llmChatOpenAI(modeldeepseek-chat,openai_api_keyyour-api-key,openai_api_basehttps://api.deepseek.com,temperature0.1,# 低温度回答更稳定max_tokens1024)# 自定义 Prompt 模板prompt_template你是一个专业的客服助手。请基于以下参考资料回答用户问题。规则 1. 只根据参考资料回答不要编造信息 2. 如果参考资料中没有相关内容请回答根据现有资料我无法回答这个问题 3. 回答时注明信息来源参考资料 {context} 用户问题{question} 回答PROMPTPromptTemplate(templateprompt_template,input_variables[context,question])# 创建检索器retrievervectorstore.as_retriever(search_typesimilarity,search_kwargs{k:3}# 检索最相似的 3 个文本块)# 构建 RAG 链qa_chainRetrievalQA.from_chain_type(llmllm,chain_typestuff,# 把所有检索结果拼接后一次性发送retrieverretriever,chain_type_kwargs{prompt:PROMPT},return_source_documentsTrue# 返回来源文档方便溯源)# 提问resultqa_chain.invoke({query:退货需要满足什么条件})print(回答,result[result])print(\n来源)fordocinresult[source_documents]:print(f -{doc.metadata.get(source,未知)})4.7 运行效果示例用户提问退货需要满足什么条件回答根据公司退货政策退货需要满足以下条件 1. 商品签收后 7 天内可申请退货 2. 商品需保持原包装完好不影响二次销售 3. 食品、贴身衣物等特殊商品不支持退货 4. 需提供订单号和购买凭证来源 - docs/售后服务政策.pdf (第3页) - docs/常见问题FAQ.txt五、完整项目结构rag-knowledge-base/ ├── docs/ # 原始文档目录 │ ├── 售后服务政策.pdf │ ├── 产品使用手册.docx │ └── 常见问题FAQ.txt ├── chroma_db/ # 向量数据库自动生成 ├── build_index.py # 建库脚本 ├── query.py # 问答脚本 ├── config.py # 配置文件 └── requirements.txtconfig.py — 统一配置importos# API 配置DEEPSEEK_API_KEYos.getenv(DEEPSEEK_API_KEY,your-api-key)DEEPSEEK_BASE_URLhttps://api.deepseek.com# Embedding 配置EMBEDDING_MODELBAAI/bge-small-zh-v1.5# 分块配置CHUNK_SIZE500CHUNK_OVERLAP50# 检索配置TOP_K3# 向量数据库配置CHROMA_DIR./chroma_dbCOLLECTION_NAMEmy_knowledge# 文档目录DOCS_DIR./docsbuild_index.py — 一键建库fromlangchain_community.document_loadersimportDirectoryLoader,TextLoader,PyPDFLoaderfromlangchain.text_splitterimportRecursiveCharacterTextSplitterfromlangchain_community.embeddingsimportHuggingFaceEmbeddingsfromlangchain_community.vectorstoresimportChromafromconfigimport*defbuild():print(1/4 加载文档...)loaders[DirectoryLoader(DOCS_DIR,glob**/*.txt,loader_clsTextLoader,show_progressTrue),DirectoryLoader(DOCS_DIR,glob**/*.pdf,loader_clsPyPDFLoader,show_progressTrue),]documents[]forloaderinloaders:documents.extend(loader.load())print(f 加载了{len(documents)}个文档)print(2/4 分块处理...)splitterRecursiveCharacterTextSplitter(chunk_sizeCHUNK_SIZE,chunk_overlapCHUNK_OVERLAP,separators[\n\n,\n,。,,,, ,])chunkssplitter.split_documents(documents)print(f 生成{len(chunks)}个文本块)print(3/4 向量化...)embeddingsHuggingFaceEmbeddings(model_nameEMBEDDING_MODEL,model_kwargs{device:cpu},encode_kwargs{normalize_embeddings:True})print(4/4 存入数据库...)vectorstoreChroma.from_documents(documentschunks,embeddingembeddings,persist_directoryCHROMA_DIR,collection_nameCOLLECTION_NAME)print(f完成共索引{vectorstore._collection.count()}个文本块)if__name____main__:build()query.py — 问答入口fromlangchain_openaiimportChatOpenAIfromlangchain.chainsimportRetrievalQAfromlangchain.promptsimportPromptTemplatefromlangchain_community.embeddingsimportHuggingFaceEmbeddingsfromlangchain_community.vectorstoresimportChromafromconfigimport*defcreate_qa_chain():embeddingsHuggingFaceEmbeddings(model_nameEMBEDDING_MODEL,model_kwargs{device:cpu},encode_kwargs{normalize_embeddings:True})vectorstoreChroma(persist_directoryCHROMA_DIR,embedding_functionembeddings,collection_nameCOLLECTION_NAME)llmChatOpenAI(modeldeepseek-chat,openai_api_keyDEEPSEEK_API_KEY,openai_api_baseDEEPSEEK_BASE_URL,temperature0.1)promptPromptTemplate(template基于以下参考资料回答问题。如果资料中没有相关内容请回答无法回答。参考资料{context} 问题{question} 回答,input_variables[context,question])returnRetrievalQA.from_chain_type(llmllm,retrievervectorstore.as_retriever(search_kwargs{k:TOP_K}),chain_typestuff,chain_type_kwargs{prompt:prompt},return_source_documentsTrue)defmain():qacreate_qa_chain()print(知识库问答系统已启动输入 quit 退出\n)whileTrue:questioninput(请输入问题).strip()ifquestion.lower()in(quit,exit,q):breakifnotquestion:continueresultqa.invoke({query:question})print(f\n回答{result[result]})print(来源,[d.metadata.get(source,)fordinresult[source_documents]])print()if__name____main__:main()六、优化技巧6.1 混合检索Hybrid Search单一向量检索可能漏掉关键词精确匹配的结果。混合检索结合语义检索关键词检索fromlangchain.retrieversimportEnsembleRetrieverfromlangchain_community.retrieversimportBM25Retriever# BM25 关键词检索bm25_retrieverBM25Retriever.from_documents(chunks)bm25_retriever.k3# 向量语义检索vector_retrievervectorstore.as_retriever(search_kwargs{k:3})# 混合检索各占 50% 权重hybrid_retrieverEnsembleRetriever(retrievers[bm25_retriever,vector_retriever],weights[0.4,0.6]# BM25 占 40%向量检索占 60%)6.2 Rerank 重排序检索后对结果重新排序提高相关性# pip install sentence-transformersfromlangchain.retrieversimportContextualCompressionRetrieverfromlangchain_cohereimportCohereRerank# 使用 Cohere Rerank需要 API KeyrerankerCohereRerank(modelrerank-multilingual-v3.0,top_n3)compression_retrieverContextualCompressionRetriever(base_compressorreranker,base_retrievervector_retriever)6.3 多轮对话fromlangchain.memoryimportConversationBufferWindowMemoryfromlangchain.chainsimportConversationalRetrievalChain memoryConversationBufferWindowMemory(k5,# 保留最近 5 轮对话memory_keychat_history,return_messagesTrue)qa_chainConversationalRetrievalChain.from_llm(llmllm,retrievervectorstore.as_retriever(),memorymemory)6.4 分块优化策略策略方法适用场景按语义分块用 NLP 模型判断语义边界文章、报告按固定长度RecursiveCharacterTextSplitter通用场景按文档结构按标题/章节切分Markdown、技术文档递归分块先大块再小块长文档七、常见问题排查Q1: 检索结果不相关检查 chunk_size 是否合适太大容易混入噪音尝试不同的 Embedding 模型增加chunk_overlap减少语义断裂Q2: 回答总是说无法回答降低 Prompt 中的限制性描述增大 Top_K 值比如从 3 改到 5检查文档是否正确加载和分块Q3: 响应速度慢Embedding 模型换用更小的如 bge-small使用 GPU 加速model_kwargs{device: cuda}向量数据库换用 Milvus 等高性能方案Q4: 中文 PDF 乱码# 用 OCR 方案pip install rapidocr-onnxruntimefromlangchain_community.document_loadersimportPDFPlumberLoader# 或使用 PaddleOCR 等工具预处理八、进阶方向方向说明Web UI用 Streamlit / Gradio 做可视化界面增量更新文档变更后只更新变化的部分不重建全量索引多模态 RAG支持图片、表格的检索Agent RAG让模型自主决定是否需要检索、检索什么生产级部署Milvus FastAPI Redis 缓存九、总结RAG 搭建的核心流程文档 → 分块 → Embedding → 向量数据库 ↓ 用户提问 → Embedding → 相似度检索 → Top-K 文档 ↓ Prompt(问题文档) → 大模型 → 回答学习路线建议先跑通 — 用 LangChain Chroma DeepSeek 跑一个最小 demo优化检索 — 试不同的 chunk_size、overlap、Top-K 值混合检索 — 关键词检索BM25 向量检索结合效果更好进阶 — 多轮对话、引用来源标注、Rerank 重排序入门建议先把最小 demo 跑通再逐步优化分块策略、检索方式和 Prompt 模板。RAG 的效果 80% 取决于数据处理和检索质量而不是模型本身。

团队项目空间、角色继承链、资产水印策略——Midjourney新功能三大硬核模块详解，错过将丧失企业级部署资格

更多请点击： https://codechina.net 第一章：团队项目空间、角色继承链、资产水印策略——Midjourney新功能三大硬核模块详解，错过将丧失企业级部署资格 Midjourney v6.3 企业版正式引入三大底层架构级能力：团队项目空间&#xff…

2026/5/21 6:53:42 阅读更多

DeepSeek v3.2.1核心模块异常日志分析（生产环境未公开的5个堆栈陷阱）

更多请点击： https://kaifayun.com 第一章：DeepSeek v3.2.1核心模块异常日志分析（生产环境未公开的5个堆栈陷阱） 在高并发场景下，DeepSeek v3.2.1 的 model-router 与 kv-cache-sync 模块频繁触发非预期 panic&#x…

2026/5/21 6:53:42 阅读更多

人脸识别学生课堂考勤专注检测系统(项目+论文)

文章目录 0 简介1 人脸识别 - 常用实现技术1.1 基于几何特征的人脸识别方法1.2 初级神经网络方法。1.3 深度学习方法。 2 人脸识别算法缺陷3 人脸识别流程3.1 相关数据集3.2 对齐3.3 仿射变换3.4 人脸目标检测3.5 人脸特征提取3.5.1 分类模型有哪些3.5.2 度量学习模型——FaceN…

2026/5/21 6:53:20 阅读更多

2026年WeMod增强工具终极指南：免费解锁专业版功能的完整教程

2026年WeMod增强工具终极指南：免费解锁专业版功能的完整教程【免费下载链接】Wand-Enhancer Advanced UX and interoperability extension for Wand (WeMod) app 项目地址: https://gitcode.com/gh_mirrors/we/Wand-Enhancer 还在为WeMod专业版的功能限制而…

2026/5/21 8:27:59 阅读更多

从零到一：手把手教你用ESP32和Arduino IDE配置BLE的GAP广播与GATT服务

从零到一：手把手教你用ESP32和Arduino IDE配置BLE的GAP广播与GATT服务在物联网设备爆炸式增长的今天，低功耗蓝牙（BLE）技术因其低能耗、低成本的特点，成为智能家居、可穿戴设备和工业传感器等场景的首选通信方案。ESP3…

2026/5/21 8:27:39 阅读更多

Gofile高效下载命令行工具完全指南：解锁批量下载与断点续传的终极解决方案

Gofile高效下载命令行工具完全指南：解锁批量下载与断点续传的终极解决方案【免费下载链接】gofile-downloader Download files from https://gofile.io 项目地址: https://gitcode.com/gh_mirrors/go/gofile-downloader 在当今数字资源共享的时代&#xff0…

2026/5/21 8:26:36 阅读更多

从JK触发器到CPU寄存器：图解钟控触发器在数字系统里的核心作用（附时序图分析）

从JK触发器到CPU寄存器：图解钟控触发器在数字系统里的核心作用（附时序图分析） 在数字电路的世界里，时钟信号如同交响乐团的指挥棒，协调着每一个逻辑元件的工作节奏。而触发器，则是这个数字乐团中最基础的&q…

2026/5/21 8:25:56 阅读更多

关于第八次web作业

这次讲模型的定位相对定位让元素相对于其原始位置进行定位元素原本占据的文档流空间依然保留，不会被其他元素占据接下来我来举个例子：先定义盒子的边框等信息，表明位置，表明方向<!doctype html> <html> <head>&…

2026/5/21 8:25:35 阅读更多

PLC编程陷阱与程序故障排查：从“程序跑飞“到“逻辑严谨“的5层防御体系，帮助工程师解决常见问题

如果说PLC程序是工业现场的"大脑"，那么很多工程师的大脑可能正在经历"精神分裂"——程序莫名其妙跑飞、急停按钮成了摆设、数据说丢就丢。这不是科幻片，这是无数工程师深夜加班的真实写照。今天，我们不谈虚的&#xff0c…

2026/5/21 8:25:15 阅读更多

别只刷固件了！用MissionPlanner搞定四旋翼‘飘移’问题，校准compass_mot全流程

四旋翼飞行品质优化：MissionPlanner高级校准实战指南当你的四旋翼无人机已经能够稳定起飞，却在定高模式下出现难以解释的飘移现象时，这往往意味着需要进入更深层次的飞控调校阶段。许多飞手在完成基础校准后便止步不前，殊不知电机…

2026/5/21 0:00:23 阅读更多

科研学术篇---论文搜索方法

高效搜集和研读论文，是构建扎实知识体系的基石。要想做到“高效”与“高质”并重，需要把整个过程当作一个闭环系统来优化——从目标锁定、来源筛选、检索策略，到快速粗筛、深度内化、持续追踪，每一步都有对应的工具和心法。下面逐…

2026/5/21 0:01:25 阅读更多

YOLOv11城市道路摩托车与自行车目标检测数据集-1569张-motorcycle-1_2

YOLOv11城市道路摩托车与自行车目标检测数据集 📊 数据集基本信息目标类别： [‘bike’, ‘motorcycle’]中文类别：[‘自行车’, ‘摩托车’]训练集：1374 张验证集：130 张测试集：65 张总计：1569…

2026/5/21 0:03:28 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/20 5:14:40 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/20 16:14:50 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/21 2:29:29 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/20 5:46:58 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/21 5:00:59 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/21 1:50:14 阅读更多

相关文章