基于 Node.js 与智谱 AI 的 RAG 工程实践

发布时间：2026/6/7 16:33:52

前段时间突然奇想想做一个基于本地资料回答的客服聊天,做了个demo放在gitee,个人感觉RAG是较可能应用到企业项目的一种模式,同时也能自己耍耍,故用AI总结出了一下这篇文章(基于自己一步步完善这个RAG项目的demo的提问与回答总结而来) ,遇到的很多问题其实是一些依赖的引入报错,只能退而让ai手搓简易的版本使用,如下面的向量存储一、为什么我们需要 RAG大语言模型LLM很强大但在企业级应用中存在三个致命缺陷幻觉一本正经地胡说八道无法容忍于专业场景。知识滞后训练数据截止后发生的事情它完全不知道。私域盲区它懂全人类的常识但不懂你公司内部的规章制度、业务文档。最朴素的解决思路是把所有私域文档塞进 Prompt 让它读。但这受限于 LLM 的上下文窗口和高昂的 Token 成本。RAGRetrieval-Augmented Generation检索增强生成应运而生。它的核心哲学是不让大模型翻阅整座图书馆而是先帮它找出最相关的几页纸让它只做这几页纸的阅读理解。二、核心技术栈与组件选型在本次工程实践中我们摒弃了沉重的 Python 体系采用了纯 Node.js 方案核心技术组件如下分类技术/组件作用说明大语言模型 (LLM)智谱 AI (glm-4-flash)负责理解指令、基于检索上下文生成自然语言回答向量化模型智谱 AI (embedding-2)将文本转换为 1024 维的高维向量语义 DNA文本切分langchain/textsplitters将长文本递归切分为固定长度的 Chunk保留重叠度防语义截断向量存储纯 JS 自研 JSON 向量库避开了 C 原生模块的编译坑实现本地持久化与余弦相似度检索后端框架Express.js提供 HTTP 接口处理 SSE 流式响应环境变量dotenv/zod安全管理 API Key校验环境依赖三、 RAG 全链路架构与核心代码整个 RAG 系统分为两大阶段数据流如下图所示[离线构建阶段] 文档 - 切分 - 调用智谱 Embedding API - 向量数据存入本地 JSON 缓存 ↑ (相似度计算) [在线生成阶段] 用户提问 - 调用智谱 Embedding API - 问题向量 ----------- 检索相关上下文 | 组装 Prompt (上下文问题) ↓ 调用智谱 GLM-4 API (流式) - 返回给前端1. 离线数据准备构建本地 JSON 向量库为了避免每次启动服务都重新计算向量消耗 Token我们实现了一个基于 JSON 的极简持久化向量库。const fs require(fs); const { RecursiveCharacterTextSplitter } require(langchain/textsplitters); const { OpenAIEmbeddings } require(langchain/openai); // 初始化智谱 Embedding 模型 const embeddings new OpenAIEmbeddings({ openAIApiKey: process.env.ZHIPU_API_KEY, modelName: embedding-2, configuration: { baseURL: https://open.bigmodel.cn/api/paas/v4/ } }); // 极简 JSON 向量库核心逻辑 class JsonVectorStore { constructor(embeddings, filePath) { this.embeddings embeddings; this.filePath filePath; this.data []; // { content: string, embedding: number[] } } // 从文档创建并保存缓存 async saveFromDocuments(docs) { const texts docs.map(doc doc.pageContent); // 核心步骤调用 API 批量生成向量 const vectors await this.embeddings.embedDocuments(texts); this.data docs.map((doc, i) ({ content: doc.pageContent, embedding: vectors[i] })); // 持久化到本地硬盘 fs.writeFileSync(this.filePath, JSON.stringify(this.data), utf-8); } // 从本地缓存加载 load() { if (fs.existsSync(this.filePath)) { this.data JSON.parse(fs.readFileSync(this.filePath, utf-8)); return true; } return false; } // 语义检索计算余弦相似度 async similaritySearch(query, k 3) { const queryVector await this.embeddings.embedQuery(query); // 仅将问题向量化 const results this.data.map(item ({ content: item.content, similarity: this.cosineSimilarity(queryVector, item.embedding) })); results.sort((a, b) b.similarity - a.similarity); return results.slice(0, k); } cosineSimilarity(vecA, vecB) { /* 余弦相似度数学公式... */ } }2. 在线生成路由层的 Prompt 组装与流式输出当用户发起请求时后端的核心职责是检索 - 约束 Prompt - 流式响应。// routes/chatRoute.js router.post(/langchain, async (req, res) { const { messages } req.req.body; const question messages[messages.length - 1].content; // 1. 本地检索纯数学计算毫秒级不消耗大模型 Token const relatedDocs await searchRelatedDocs(question, 2); const contextText relatedDocs.map(d d.pageContent).join(\n---\n); // 2. 构建 Prompt严格防止幻觉最后一道防线 let finalSystemPrompt process.env.SYSTEM_IDENTITY; if (contextText) { // ⚠️ 关键避坑必须明确指示大模型“只依赖资料”否则检索噪音会引发幻觉 finalSystemPrompt 【参考信息】\n${contextText}\n\n请严格根据上面的【参考信息】回答用户问题。如果参考信息中没有包含所需内容请直接回复“根据现有知识库无法回答”严禁编造。; } else { finalSystemPrompt 请根据你的通用知识回答用户的问题。; } // 3. 调用智谱 GLM 大模型进行流式生成 const stream await streamChat([ { role: system, content: finalSystemPrompt }, { role: user, content: question } ]); // 4. 通过 SSE 将流式数据推送给前端... res.setHeader(Content-Type, text/event-stream); for await (const chunk of stream) { res.write(data: ${JSON.stringify({ content: chunk.content })}\n\n); } res.end(); });四、工程踩坑与深度认知 (面试高光时刻)在真实工程落地中跑通 Demo 只是第一步以下三个深度认知决定了 RAG 系统的可用性1. 为什么非要算成向量关键字匹配不行吗关键字匹配如 SQLLIKE基于字面重合它不懂“失眠”和“睡不着”是一个意思。向量是语义层面的表示在向量空间中意思相近的文本距离天然相近。向量化是把“语义匹配”降维成了“数学计算”从而实现了毫秒级的语义检索。2. 既然检索出的已经是文本为什么还要写严格的 Prompt 约束向量检索存在误召回率。有时用户问“报销流程”检索出的却是“开发流程”因为都有“流程”。如果不限制大模型它会顺着错误资料胡编乱造幻觉放大。严格的 Prompt 是守住准确性的最后一道防线。大模型在 RAG 中的角色不是发散创作而是受限条件下的阅读理解。3. 为什么放弃成熟的向量库HNSWLib/Faiss改用 JSON在 Node.js 环境下hnswlib-node和faiss-node都是 C 原生编译模块。在 Windows 环境下极易因缺少 Visual Studio Build Tools 或 Node.js 版本不匹配导致编译失败ERR_PACKAGE_PATH_NOT_EXPORTED。对于中小型知识库基于文件系统的 JSON 缓存内存余弦计算零依赖、无需编译、永不报错是最稳健的起步方案。五、生产级 RAG 的进阶方向当前的极简方案足以应对中小型知识库若要走向生产环境还需考虑智能分块按 Markdown 标题、代码块逻辑切分而非简单按字数。多路召回 Reranker结合 BM25关键字召回和向量召回再用交叉编码器重排序。Agent 融合让大模型自主决定何时检索本地知识库何时调用外部工具。

基于Arduino与PIR传感器的智能驱鸟器：从感知到执行的嵌入式系统实践

1. 项目概述与核心思路几年前，我在自家后院搞了个小菜园，结果没几天就成了麻雀和鸽子的“自助餐厅”。试过反光带、假人，效果都一般。后来想到，自然界里猫头鹰是很多小鸟的天敌，用它的叫声来驱鸟应该是个更“生态”的法…

2026/6/4 23:29:24 阅读更多

全源码提供-浪漫定格的婚纱摄影预约小程序

全源码提供-浪漫定格的婚纱摄影预约小程序一个面向婚纱摄影行业的在线预约与档期管理平台，覆盖客户摄影师管理后台三端，基于 Vue 3 构建。项目背景每年超过 800 万对新人步入婚姻殿堂，婚纱摄影是刚需中的高客单消费——客单价从 2,999 到…

2026/6/4 21:23:32 阅读更多

2026 年 3 月青少年软编等考 C/C++ 一级测试题解析

目录一、单选题（每题 4 分，共 40 分）二、判断题（每题 2 分，共 20 分）三、编程题（每题 20 分，共 40 分）1. 欢迎来到程序世界思路分析2. 重复的数列思路分析一、单选题&…

2026/6/5 16:57:28 阅读更多

CSDN AI发文权限深度拆解：未开通会员用户单次调用成功率仅17.3%？附3个实测可行替代路径

更多请点击： https://kaifayun.com 第一章：不开通会员单独购买 CSDN AI 数字营销的单次 AI 发文可行吗？ CSDN AI 数字营销服务目前未开放“单次按需购买”的独立入口，所有 AI 发文功能均绑定在「CSDN 会员体系」下。用户若未开通…

2026/6/7 17:37:27 阅读更多

为什么92%的作者申诉失败？CSDN资深法务+AI算法工程师联合拆解侵权判定底层逻辑

更多请点击： https://codechina.net 第一章：文章被投诉侵权，CSDN AI 数字营销能协助申诉吗？ 当您的原创技术文章在 CSDN 平台遭遇他人恶意投诉或误判为侵权时，CSDN AI 数字营销系统本身**不直接参与版权申诉流程**&am…

2026/6/7 17:37:07 阅读更多

SAP ALV单元格修改后自动联动更新？一个CL_ALV_CHANGED_DATA_PROTOCOL的实战教程

SAP ALV单元格联动更新实战：基于CL_ALV_CHANGED_DATA_PROTOCOL的智能交互设计在SAP ABAP开发中，ALV（ABAP List Viewer）表格作为最常用的数据展示控件，其交互体验直接影响用户操作效率。当用户需要频繁修改单价、数量等…

2026/6/7 17:36:26 阅读更多

Steam游戏保护机制解除：如何实现免平台启动的技术探索

Steam游戏保护机制解除：如何实现免平台启动的技术探索【免费下载链接】Steam-auto-crack Steam Game Automatic Cracker 项目地址: https://gitcode.com/gh_mirrors/st/Steam-auto-crack 你是否曾想过，为什么有些Steam游戏需要依赖平台才能启动&…

2026/6/7 17:35:46 阅读更多

CSDN AI数字营销单次使用暗藏玄机：7类账号状态触发自动降权，95%自由撰稿人已中招

更多请点击： https://kaifayun.com 第一章：不开通会员单独购买 CSDN AI 数字营销的单次 AI 发文可行吗？ CSDN AI 数字营销服务目前未开放“单次按需购买”的独立入口，其 AI 发文功能深度绑定于会员体系。用户若未开通任一档位的 …

2026/6/7 17:35:25 阅读更多

芯片产业资本过热下的理性思考：从价格战到价值创新的路径探索

1. 行业繁荣下的冷思考：当“国家队”资本涌入芯片赛道最近和圈内几位老朋友喝茶，聊起这两年国内芯片行业的火热景象，大家感慨万千。一方面，国产替代的浪潮确实让不少本土设计公司迎来了前所未有的发展机遇，订单接到手…

2026/6/7 17:34:45 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/7 0:02:57 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/7 0:02:57 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/7 0:03:38 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

2026/6/7 0:02:57 阅读更多

索引堆及其优化

2026/6/7 0:02:57 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

2026/6/7 0:03:38 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/7 9:41:13 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/7 9:41:15 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/7 9:41:13 阅读更多

相关文章

基于Arduino与PIR传感器的智能驱鸟器：从感知到执行的嵌入式系统实践

全源码提供-浪漫定格的婚纱摄影预约小程序

2026 年 3 月青少年软编等考 C/C++ 一级测试题解析

CSDN AI发文权限深度拆解：未开通会员用户单次调用成功率仅17.3%？附3个实测可行替代路径

为什么92%的作者申诉失败？CSDN资深法务+AI算法工程师联合拆解侵权判定底层逻辑

SAP ALV单元格修改后自动联动更新？一个CL_ALV_CHANGED_DATA_PROTOCOL的实战教程

Steam游戏保护机制解除：如何实现免平台启动的技术探索

CSDN AI数字营销单次使用暗藏玄机：7类账号状态触发自动降权，95%自由撰稿人已中招

芯片产业资本过热下的理性思考：从价格战到价值创新的路径探索

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因