LangChain框架在高炉炼铁智能化领域的应用~系列文章07：RAG检索增强生成 — 高炉知识库的“百科全书“

发布时间：2026/6/15 11:26:12

第7期RAG检索增强生成 — 高炉知识库的百科全书专栏《LangChain框架在高炉炼铁智能化领域的应用》前情回顾上期我们用 Chain 串起了 AI 处理流水线本期重点RAG检索增强生成—— 让 AI 学会查资料再回答问题引言AI 的知识瓶颈想象一个场景你问 AI‍你“5号高炉在2023年3月那次悬料事故是怎么处理的”AI自信满满“那场事故是因为风量突然下降导致的建议减风加焦……”然后你翻出了档案记录档案记录“2023年3月悬料事故根本原因是原燃料质量波动执行了排风空吹操作……”AI 完全说错了大模型的问题❌ 训练数据截止日期之后的信息不知道❌ 企业内部专有数据没见过❌ 会幻觉——编造看似合理但错误的内容解决方案 RAGRetrieval-Augmented Generation‍♂️ RAG 是什么三句话RAG 检索Retrieve 增强Augment 生成Generate 1️⃣ 检索从知识库中找到相关的文档片段 2️⃣ 增强把检索到的内容拼接到 Prompt 中 3️⃣ 生成让 AI 基于这些资料回答问题核心原理图用户问题 ──→ [检索] ──→ 向量知识库 │ ↑ │ ┌────┴────┐ │ │ 文档分片 │ │ │ 向量化 │ ▼ └─────────┘ [增强 Prompt] │ [生成回答] ▼ 最终答案 ✅类比高炉场景没有RAG的AI → 凭经验开高炉的老师傅记忆有限、会忘事有RAG的AI → 带着操作手册开高炉的老师傅随时翻书、准确率高️ 搭建RAG系统的完整流程9步详解Step 1~4文档处理构建知识库# rag_knowledge_base.py# 高炉知识库构建脚本fromlangchain.text_splitterimportRecursiveCharacterTextSplitterfromlangchain_community.vectorstoresimportChromafromlangchain_openaiimportOpenAIEmbeddingsfromtypingimportList,Dictimportos# ─────────── Step 1: 加载文档 ───────────defload_blast_furnace_documents()-List[str]: 加载高炉相关的知识文档实际场景中这些文档来自操作手册、技术标准、历史案例、论文等 documents[# 模拟知识文档片段【高炉悬料处理规程】当出现悬料征兆时风压升高0.45MPa风量下降10% 第一步立即减风 10-15%稳定压量关系第二步如 5 分钟后无改善进一步减风至 50% 第三步如仍未崩料执行排风操作注意事项严禁在悬料状态下强行加风 , 【炉温判断标准】铁水温度正常范围1480-1520°C 硅含量正常范围0.35-0.55% 炉渣碱度正常范围1.10-1.25 当铁温1480°C或硅含量0.35%时判定为炉温偏低当铁温1520°C或硅含量0.55%时判定为炉温偏高 , 【布料矩阵调整原则】正常生产时使用平台漏斗布料模式边缘发展时适当增加边缘矿量中心发展时适当增加中心焦量布料角度通常控制在 8°-45° 之间 ]returndocuments# ─────────── Step 2: 文档分割 ───────────defsplit_documents(documents:List[str])-List:将长文档切分成合适的片段text_splitterRecursiveCharacterTextSplitter(chunk_size500,# 每段500字符chunk_overlap50,# 重叠50字符避免切碎关键信息separators[\n\n,\n,。,., ,],length_functionlen)chunks[]fordocindocuments:splitstext_splitter.split_text(doc)chunks.extend(splits)print(f 原始文档:{len(documents)}篇)print(f✂️ 分割后:{len(chunks)}个片段)returnchunks# ─────────── Step 3: 向量化存储 ───────────defcreate_vector_store(chunks:List[str],persist_dir:str./bf_knowledge_db):将文档片段向量化并存入向量数据库embeddingsOpenAIEmbeddings(modeldoubao-seed-2-0-lite-260215,# 支持向量化的模型api_keyos.getenv(COZE_WORKLOAD_IDENTITY_API_KEY),base_urlos.getenv(COZE_INTEGRATION_MODEL_BASE_URL),)# 创建向量存储vector_storeChroma.from_texts(textschunks,embeddingembeddings,persist_directorypersist_dir)# 持久化保存vector_store.persist()print(f 向量库已保存至:{persist_dir})print(f 向量维度:{len(vector_store.get()[0])ifhasattr(vector_store,get)elseN/A})returnvector_store# ─────────── 执行构建 ───────────if__name____main__:print( 开始构建高炉知识库...)docsload_blast_furnace_documents()chunkssplit_documents(docs)vector_storecreate_vector_store(chunks)print(✅ 知识库构建完成)Step 5~9RAG 问答系统# rag_qa_system.py# 基于RAG的高炉知识问答系统fromlangchain_openaiimportChatOpenAI,OpenAIEmbeddingsfromlangchain_community.vectorstoresimportChromafromlangchain.chainsimportRetrievalQAfromlangchain.promptsimportPromptTemplateimportos# ─────────── Step 5: 加载知识库 ───────────defload_vector_store(persist_dir:str./bf_knowledge_db):加载已持久化的向量库embeddingsOpenAIEmbeddings(modeldoubao-seed-2-0-lite-260215,api_keyos.getenv(COZE_WORKLOAD_IDENTITY_API_KEY),base_urlos.getenv(COZE_INTEGRATION_MODEL_BASE_URL),)returnChroma(persist_directorypersist_dir,embedding_functionembeddings)# ─────────── Step 6: 构建检索器 ───────────defbuild_retriever(vector_store,k:int3): 构建检索器 k3每次检索返回最相关的3个文档片段 returnvector_store.as_retriever(search_typesimilarity,# 相似度检索search_kwargs{k:k}# 返回Top-K结果)# ─────────── Step 7: 设计 RAG Prompt ───────────rag_prompt_template你是一名高炉炼铁专家。请基于以下参考资料回答用户的问题。【参考资料】 {context} 【用户问题】 {question} 回答要求 1. 优先使用参考资料中的内容回答 2. 如果参考资料不足以回答请明确告知 3. 引用参考资料时说明来源 4. 回答要专业、具体、可操作【回答】rag_promptPromptTemplate(templaterag_prompt_template,input_variables[context,question])# ─────────── Step 8: 构建 RAG Chain ───────────defbuild_rag_chain(vector_store):构建完整的RAG问答链llmChatOpenAI(modeldoubao-seed-2-0-lite-260215,temperature0.2,# 低温度严格基于资料回答timeout600)retrieverbuild_retriever(vector_store,k3)# 使用 LangChain 内置的 RetrievalQAqa_chainRetrievalQA.from_chain_type(llmllm,chain_typestuff,# 把所有检索结果一起塞给LLMretrieverretriever,chain_type_kwargs{prompt:rag_prompt,verbose:True# 显示检索过程},return_source_documentsTrue# 返回检索到的原文)returnqa_chain# ─────────── Step 9: 执行问答 ───────────defask_rag(qa_chain,question:str):向RAG系统提问resultqa_chain.invoke({query:question})print(f\n{*50})print(f❓ 问题:{question})print(f{*50})print(f 回答:\n{result[result]})print(f\n 参考来源 ({len(result[source_documents])}篇):)fori,docinenumerate(result[source_documents],1):print(f [{i}]{doc.page_content[:100]}...)returnresult# ─────────── 运行 ───────────if__name____main__:print( 初始化RAG系统...)vector_storeload_vector_store()qa_chainbuild_rag_chain(vector_store)# 测试几个问题questions[铁水温度低于1480°C应该怎么办,高炉悬料怎么处理,布料矩阵调整的原则是什么]forqinquestions:ask_rag(qa_chain,q)print(\n) RAG vs 纯LLM对比实验我们用一个真实的高炉场景问题来对比问题“铁水温度 1475°C硅含量 0.32%应该怎么调整”维度❌ 纯LLM回答✅ RAG回答回答速度快不用查资料稍慢需检索内容“温度偏低需要加焦”“根据《炉温判断标准》铁温1475°C低于正常下限1480°C硅含量0.32%低于0.35%下限。建议①加焦3-5kg/t ②减风50m³/min ③加密观察”准确性可能漏关键信息有据可查准确完整幻觉风险高低基于资料回答结论工业场景强烈推荐 RAG✅✅✅ 实战进阶高炉操作案例库RAG构建一个高炉历史操作案例的 RAG 系统让 AI 能从历史事故中学习 # 模拟一个高炉历史案例数据结构historical_cases[ 案例编号CASE-2023-0315 时间2023年3月15日高炉4号高炉3200m³ 事件类型悬料前兆风压在30分钟内从0.38MPa升至0.46MPa 风量从5200m³/min降至4700m³/min 透气性指数从35降至26 处理措施1. 立即减风15% 2. 减风后5分钟无改善二次减风至50% 3. 执行排风操作炉料崩落 4. 恢复风量至80%观察15分钟后逐步加风结果成功处理未造成设备损坏经验总结悬料初期果断减风是成功的关键 , 案例编号CASE-2024-0108 时间2024年1月8日高炉5号高炉2500m³ 事件类型炉凉前兆铁水温度从1510°C连续8小时降至1465°C 硅含量从0.48%降至0.30% 炉渣颜色变黑处理措施1. 加焦总量15吨分批加入 2. 适当降低风量5% 3. 检查冷却设备发现漏水 4. 处理漏水后炉温逐步恢复结果48小时后炉温恢复正常经验总结炉凉要查冷却系统是否有漏水 ]# 将这些案例也向量化存入知识库# 这样AI就能在遇到类似问题时回忆起历史案例的处置方法⚡ RAG优化技巧高炉场景专用1️⃣ 检索策略优化# 混合检索相似度关键词retrievervector_store.as_retriever(search_typemmr,# Maximum Marginal Relevancesearch_kwargs{k:5,fetch_k:20,# 先取20个候选lambda_mult:0.5# 多样性系数0~1})2️⃣ 文档重排序fromlangchain.retrieversimportContextualCompressionRetrieverfromlangchain.retrievers.document_compressorsimportLLMChainExtractor# 用LLM对检索结果进行精炼——只保留最相关内容compressorLLMChainExtractor.from_llm(llm)compression_retrieverContextualCompressionRetriever(base_compressorcompressor,base_retrieverretriever)3️⃣ 针对高炉场景的文档分片策略# 高炉文档的特殊分片按主题切分而非简单按字符bf_splitterRecursiveCharacterTextSplitter(chunk_size1000,chunk_overlap200,separators[\n## ,# 一级标题\n### ,# 二级标题\n【,# 高炉规范常用【】标记\n案例编号,# 案例库标记\n\n,\n, ,]) 本期小结知识点一句话总结RAG是什么检索增强生成带知识库的AI文档处理分片 → 向量化 → 存储检索策略相似度检索 Top-K增强Prompt把检索结果拼入Prompt高炉场景价值让AI基于企业内部知识回答问题核心心法RAG 是工业 AI 的基础设施——没有 RAG 的 AI 是纸上谈兵有 RAG 的 AI 是实战专家。在要求高准确率的高炉场景中RAG 不是可选项而是必选项下期预告第8期《Agents智能体给高炉装上自主决策大脑》Chain 学会了按步骤执行RAG 学会了查资料——但还不够真正的工业场景中AI 需要自主判断什么时候该查数据什么时候该调知识库什么时候该调用计算工具甚至——该不该拉响警报这就是Agent智能体的威力它不再是被动回答而是主动思考、自主行动下一期我们进入整个专栏的高潮部分——打造一个能自主决策、能操作工具、能多步推理的高炉智能体16期连载中精彩内容不要错过作者高炉炼铁智能化技术研究者专注钢铁冶金与人工智能交叉领域。如果觉得有帮助请点赞、收藏、转发版权归作者所有未经许可请勿抄袭套用商用(或其它具有利益性行为)。关注专栏不错过后续精彩内容

用图论指标解码街道网络：城市空间句法实战指南

1. 这不是在画地图，而是在给城市“把脉”——用图论指标解码街道网络的隐性逻辑你有没有注意过，同样都是“老城区”，有的地方走着走着就迷路了，小巷子七拐八绕像迷宫；而有的区域哪怕第一次去，也能凭直觉找…

2026/6/15 11:24:10 阅读更多

单台电脑实现4人同屏：Nucleus Co-Op分屏游戏终极指南 [特殊字符]

单台电脑实现4人同屏：Nucleus Co-Op分屏游戏终极指南 🎮 【免费下载链接】nucleuscoop Starts multiple instances of a game for split-screen multiplayer gaming! 项目地址: https://gitcode.com/gh_mirrors/nu/nucleuscoop 还在为本地多人游戏…

2026/6/15 11:24:10 阅读更多

Java毕业设计-基于Vue+SpringBoot的动漫周边购物商城系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等)

博主介绍：✌️码农一枚 ，专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围：&am…

2026/6/15 11:23:08 阅读更多

2026阿拉善盟权威认证贵金属回收 TOP5+黄金回收白银回收铂金回收门店地址电话推荐

阿拉善盟的贵金属回收店铺星罗棋布，但服务质量与报价标准却参差不齐，不少朋友在出售黄金、白银或铂金时，往往因信息不对称而陷入选择困境。为了帮大家拨云见日，小编特意走访并整理了本地一批诚信可靠的回收服务商。以下这份清单覆…

2026/6/15 13:06:09 阅读更多

2026安顺市权威认证贵金属回收 TOP5+黄金回收白银回收铂金回收门店地址电话推荐

安顺的街头巷尾，贵金属回收店铺星罗棋布，从老城区的传统金店到新兴的商务楼宇工作室，让人眼花缭乱。为了帮大家拨云见日，找到真正靠谱的服务商，小编特意深入走访、多方核实，整理出一份关于安顺黄金、白银、…

2026/6/15 13:06:09 阅读更多

10分钟掌握抖音批量下载：从单视频到全主页的完整指南

10分钟掌握抖音批量下载：从单视频到全主页的完整指南【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback suppor…

2026/6/15 13:05:08 阅读更多

深入理解unistd.h：系统编程核心函数与实战应用

1. 从零开始理解unistd.h：系统编程的基石如果你写过C语言程序，尤其是那些需要和操作系统打交道的程序，比如创建一个文件、启动另一个程序，或者只是想知道自己当前在哪个目录下，那你大概率已经和unistd.h这个头文件打过…

2026/6/15 13:04:47 阅读更多

用《瑞克和莫蒂》议会建模帕累托分布与不平等演化

1. 项目概述：当《瑞克和莫蒂》撞上帕累托定律——用流行文化解构不平等的数学内核你有没有在刷《瑞克和莫蒂》时，突然被一句台词钉在原地？比如瑞克那句“90%的宇宙文明，掌握着90%的熵减技术，而剩下10%的文明&#xff0…

2026/6/15 13:04:06 阅读更多

抖音无水印批量下载神器：5分钟快速上手终极指南

抖音无水印批量下载神器：5分钟快速上手终极指南【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support. 抖…

2026/6/15 13:03:05 阅读更多

终极便携开发套件：5分钟快速上手w64devkit Windows开发环境

终极便携开发套件：5分钟快速上手w64devkit Windows开发环境【免费下载链接】w64devkit Portable C and C Development Kit for x64 (and x86) Windows 项目地址: https://gitcode.com/gh_mirrors/w6/w64devkit 你是否厌倦了在Windows上配置复杂的C/C开发环境…

2026/6/15 0:00:36 阅读更多

深蓝词库转换：打破20+输入法壁垒的技术架构深度解析

深蓝词库转换：打破20输入法壁垒的技术架构深度解析【免费下载链接】imewlconverter ”深蓝词库转换“ 一款开源免费的输入法词库转换程序项目地址: https://gitcode.com/gh_mirrors/im/imewlconverter 当你在不同平台间切换输入法时，是否曾为无…

2026/6/15 0:02:18 阅读更多

NSK紧凑型精密滚珠丝杠技术手册

型号 W1202FA-3P-C3Z5 属于 the sources 中 NSK 推出的紧凑型 FA 系列（Compact FA Series）高速精密滚珠丝杠。如果您一路追踪了之前的查询记录，这款产品正是您不久前查询的 125 规格（12 mm 粗轴、5 mm 导程、预紧无背隙版&#x…

2026/6/15 0:02:59 阅读更多

音乐文件解锁实战指南：3个场景解决你的播放困境

音乐文件解锁实战指南：3个场景解决你的播放困境【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库： 1. https://github.com/unlock-music/unlock-music ；2. https://git.unlock-music.dev/um/web 项目地址: https://git…

2026/6/15 0:09:30 阅读更多

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

遥感卫星数据选型实战指南：从参数解析到场景化应用当面对GEE、PIE-Engine等云平台上数十种遥感数据源时，许多研究者常陷入选择困难——Landsat的历史连续性、Sentinel-2的红边波段优势、高分系列的亚米级分辨率各有千秋。本文将打破常规参数罗列式对比&a…

2026/6/15 0:09:27 阅读更多

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

1. 项目概述：MC68302 AutoBaud技术深度解析在嵌入式系统开发，尤其是那些需要与外部设备进行串口通信的场景里，最让人头疼的环节之一就是波特率匹配。想象一下，你设计了一个数据采集终端，需要连接来自不同厂家、不同年代…

2026/6/15 0:09:27 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/15 10:37:31 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/15 10:16:08 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/15 10:16:07 阅读更多

相关文章