别再死磕OpenAI API Key了！用Langchain轻松接入本地ChatGLM3/4模型（保姆级教程）

发布时间：2026/5/21 8:21:32

用Langchain构建本地化大语言模型工作流的实战指南在当今AI技术快速迭代的背景下许多开发者发现自己的项目被绑定在特定商业API上这不仅带来成本压力还存在数据隐私和网络稳定性等潜在风险。本文将带你突破这些限制通过Langchain框架实现本地化大语言模型的灵活调用特别针对ChatGLM系列模型的深度集成方案。1. 为什么需要本地化LLM解决方案商业API服务虽然方便但在实际企业级应用中存在三大核心痛点首先是响应延迟问题跨国API调用经常面临不可预测的网络抖动其次是数据合规要求金融、医疗等行业对敏感信息的出境有严格限制最后是成本控制难题当业务量增长时API费用可能呈指数级上升。本地化部署的开源模型能完美解决这些问题。以ChatGLM3-6B为例它在中文理解、逻辑推理等任务上已达到商用水平而完全可以在消费级显卡如RTX 3090上流畅运行。更重要的是所有数据处理都在本地完成彻底杜绝了隐私泄露风险。提示选择本地模型时需平衡算力需求与模型性能ChatGLM3-6B在24GB显存设备上可流畅运行8bit量化版本典型适用场景包括企业内部知识问答系统敏感数据预处理流水线需要定制化微调的垂直领域应用网络隔离环境下的智能服务2. 环境准备与基础配置2.1 硬件与软件需求实现本地模型运行需要确保硬件满足最低要求组件最低配置推荐配置GPURTX 3060 (12GB)RTX 4090 (24GB)内存16GB32GB存储50GB SSD1TB NVMe软件依赖方面需要准备conda create -n langchain python3.10 conda activate langchain pip install langchain transformers4.33.3 torch2.0.1 sentencepiece2.2 模型获取与加载从Hugging Face获取ChatGLM3模型from transformers import AutoModel, AutoTokenizer model_path THUDM/chatglm3-6b tokenizer AutoTokenizer.from_pretrained(model_path, trust_remote_codeTrue) model AutoModel.from_pretrained(model_path, trust_remote_codeTrue).half().cuda()对于显存有限的设备可采用4bit量化加载from transformers import BitsAndBytesConfig quant_config BitsAndBytesConfig( load_in_4bitTrue, bnb_4bit_use_double_quantTrue, bnb_4bit_quant_typenf4, bnb_4bit_compute_dtypetorch.bfloat16 ) model AutoModel.from_pretrained(model_path, quantization_configquant_config)3. Langchain核心集成方案3.1 基础LLM封装类实现Langchain提供了灵活的基类继承机制我们可以通过重写关键方法实现自定义集成from langchain.llms.base import LLM from typing import Optional, List class ChatGLM3Wrapper(LLM): def __init__(self, model_path: str): super().__init__() self.tokenizer AutoTokenizer.from_pretrained( model_path, trust_remote_codeTrue ) self.model AutoModel.from_pretrained( model_path, trust_remote_codeTrue ).half().cuda() def _call(self, prompt: str, stop: Optional[List[str]] None) - str: response, _ self.model.chat( self.tokenizer, prompt, history[], temperature0.7, top_p0.9 ) if stop: from langchain.llms.utils import enforce_stop_tokens response enforce_stop_tokens(response, stop) return response property def _llm_type(self) - str: return chatglm3-local3.2 高级功能扩展实际业务中往往需要更复杂的功能集成。下面是支持对话历史保持的增强版本class ChatGLM3WithMemory(LLM): def __init__(self, model_path: str): super().__init__() self.history [] # 初始化代码同上... def _call(self, prompt: str, stop: Optional[List[str]] None) - str: response, self.history self.model.chat( self.tokenizer, prompt, historyself.history, max_length8192 ) # 停用词处理同上... return response def clear_history(self): self.history []4. 生产环境最佳实践4.1 性能优化技巧通过以下方法可以显著提升推理速度批处理预测将多个请求合并处理def batch_predict(questions: List[str]) - List[str]: inputs tokenizer(questions, return_tensorspt, paddingTrue).to(cuda) outputs model.generate(**inputs, max_new_tokens512) return [tokenizer.decode(out, skip_special_tokensTrue) for out in outputs]量化推理使用AWQ或GPTQ量化技术from auto_gptq import AutoGPTQForCausalLM quantized_model AutoGPTQForCausalLM.from_quantized( THUDM/chatglm3-6b-gptq, trust_remote_codeTrue, devicecuda:0 )4.2 错误处理与监控健壮的生产系统需要完善的异常处理机制from tenacity import retry, stop_after_attempt, wait_exponential class RobustChatGLM(ChatGLM3Wrapper): retry( stopstop_after_attempt(3), waitwait_exponential(multiplier1, min4, max10) ) def predict_with_retry(self, prompt: str) - str: try: return self._call(prompt) except RuntimeError as e: if CUDA out of memory in str(e): torch.cuda.empty_cache() raise raise5. 进阶应用场景5.1 多模型路由系统在复杂业务中可能需要根据query类型选择不同模型from langchain.llms import RouterLLM router_config [ (technical, ChatGLM3Wrapper(THUDM/chatglm3-6b)), (creative, OpenChatWrapper(openchat_3.5)), ] router RouterLLM( router_chaincreate_router_chain(router_config), destination_chains{name: llm for name, llm in router_config} )5.2 与向量数据库集成构建知识增强的问答系统from langchain.vectorstores import Chroma from langchain.embeddings import HuggingFaceEmbeddings embeddings HuggingFaceEmbeddings(model_nameBAAI/bge-small-zh) vectorstore Chroma.from_documents(docs, embeddings) retriever vectorstore.as_retriever() qa_chain RetrievalQA.from_chain_type( llmChatGLM3Wrapper(THUDM/chatglm3-6b), chain_typestuff, retrieverretriever )在实际部署中发现结合向量检索后ChatGLM3在专业领域问答的准确率能提升40%以上。一个典型的部署架构包含前端接入层处理用户请求路由层分析问题类型检索模块获取相关知识片段LLM生成最终回复后处理模块进行敏感信息过滤

在RK3588开发板上折腾Qt 5.15.0带OpenGL ES2：一次本地编译的完整踩坑与配置实录

在RK3588开发板上构建Qt 5.15.0与OpenGL ES2的完整实践指南当嵌入式开发者需要在资源受限的环境中实现流畅的图形界面时，Qt框架配合OpenGL ES2硬件加速成为理想选择。RK3588作为一款高性能ARM处理器，其Mali-G610 GPU为图形渲染提供了强大支持。本文将详…

2026/5/21 8:20:32 阅读更多

DRV8301栅极驱动芯片深度解析：除了FOC，它的BUCK电路和SPI诊断功能你用对了吗？

DRV8301栅极驱动芯片的多维应用：超越FOC的BUCK供电与智能诊断实战在电机控制领域，DRV8301常被视为一款专为FOC（磁场定向控制）优化的栅极驱动芯片。但若仅将其用作MOSFET驱动器，无异于仅使用了瑞士军刀中的主刀片。这…

2026/5/21 8:20:32 阅读更多

VLP-16激光雷达数据包解析实战：从UDP原始数据到三维点云的Python保姆级教程

VLP-16激光雷达数据解析全流程：从原始字节到三维可视化实战指南在自动驾驶、机器人导航和三维测绘领域，激光雷达数据的实时处理能力直接决定了系统性能的上限。作为业界广泛采用的16线激光雷达，VLP-16以相对低廉的成本提供了可靠的测距性能&…

2026/5/21 8:20:11 阅读更多

终极魔兽争霸3兼容性修复指南：5分钟让经典游戏在现代电脑上重生

终极魔兽争霸3兼容性修复指南：5分钟让经典游戏在现代电脑上重生【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 还在为魔兽争霸3在现代Win…

2026/5/21 9:53:20 阅读更多

如何快速上手Hertz.dev：5分钟完成首个全双工音频对话

如何快速上手Hertz.dev：5分钟完成首个全双工音频对话【免费下载链接】hertz-dev first base model for full-duplex conversational audio 项目地址: https://gitcode.com/gh_mirrors/he/hertz-dev 想要体验革命性的全双工音频对话技术吗？Hertz.…

2026/5/21 9:53:20 阅读更多

CANN/asc-devkit llroundf函数文档

llroundf 【免费下载链接】asc-devkit 本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言，原生支持C和C标准规范，主要由类库和语言扩展层构成，提供多层级API，满足多维场景算子开发诉求。项目地址: https://gitcode.com/c…

2026/5/21 9:52:44 阅读更多

终极Markdown阅读器：在Chrome浏览器中实现专业级文档阅读体验的完整指南

终极Markdown阅读器：在Chrome浏览器中实现专业级文档阅读体验的完整指南【免费下载链接】markdownReader markdownReader is a extention for chrome, used for reading markdown file. 项目地址: https://gitcode.com/gh_mirrors/ma/markdownReader 还在为…

2026/5/21 9:52:44 阅读更多

Adobe-GenP 3.0终极指南：5分钟专业级Adobe全家桶激活解决方案

Adobe-GenP 3.0终极指南：5分钟专业级Adobe全家桶激活解决方案【免费下载链接】Adobe-GenP Adobe CC 2019/2020/2021/2022/2023 GenP Universal Patch 3.0 项目地址: https://gitcode.com/gh_mirrors/ad/Adobe-GenP Adobe-GenP 3.0作为一款专业的Adobe Creat…

2026/5/21 9:52:20 阅读更多

Mosaico图片处理系统：从上传到优化的完整流程指南

Mosaico图片处理系统：从上传到优化的完整流程指南【免费下载链接】mosaico Mosaico - Responsive Email Template Editor 项目地址: https://gitcode.com/gh_mirrors/mo/mosaico Mosaico是一款专业的响应式邮件模板编辑器，它提供了一个完整的图片…

2026/5/21 9:52:20 阅读更多

别只刷固件了！用MissionPlanner搞定四旋翼‘飘移’问题，校准compass_mot全流程

四旋翼飞行品质优化：MissionPlanner高级校准实战指南当你的四旋翼无人机已经能够稳定起飞，却在定高模式下出现难以解释的飘移现象时，这往往意味着需要进入更深层次的飞控调校阶段。许多飞手在完成基础校准后便止步不前，殊不知电机…

2026/5/21 0:00:23 阅读更多

科研学术篇---论文搜索方法

高效搜集和研读论文，是构建扎实知识体系的基石。要想做到“高效”与“高质”并重，需要把整个过程当作一个闭环系统来优化——从目标锁定、来源筛选、检索策略，到快速粗筛、深度内化、持续追踪，每一步都有对应的工具和心法。下面逐…

2026/5/21 0:01:25 阅读更多

YOLOv11城市道路摩托车与自行车目标检测数据集-1569张-motorcycle-1_2

YOLOv11城市道路摩托车与自行车目标检测数据集 📊 数据集基本信息目标类别： [‘bike’, ‘motorcycle’]中文类别：[‘自行车’, ‘摩托车’]训练集：1374 张验证集：130 张测试集：65 张总计：1569…

2026/5/21 0:03:28 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/21 8:30:37 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/20 16:14:50 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/21 2:29:29 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…