CANN-昇腾NPU-RAG推理-检索增强生成怎么部署

发布时间：2026/5/26 2:23:30

RAGRetrieval-Augmented Generation是 LLM 知识库的组合先检索相关文档再让 LLM 基于文档回答。昇腾NPU 上部署 RAG 需要两个组件Embedding 模型做向量检索和 LLM做生成。CANN 的 ATB 都能跑。RAG 架构用户提问 ↓ Embedding 模型 → 问题向量 → 向量数据库检索 → Top-K 文档 ↓ LLM问题检索到的文档 → 生成回答两个模型都在昇腾NPU 上跑延迟最低。Embedding 模型部署fromatbimportLLM# Embedding 模型BGE-base-zh109M 参数embed_modelLLM(BAAI/bge-base-zh-v1.5,devicenpu:0,taskembedding,# 指定是 Embedding 任务)# 生成向量vectorsembed_model.encode([什么是昇腾NPU,CANN是什么])# vectors.shape (2, 768)Embedding 模型很小100M 级别单卡跑绰绰有余。向量数据库用 FAISS 做内存向量检索最快或用 Milvus 做持久化向量数据库importfaissimportnumpyasnp# 构建 FAISS 索引dimension768# BGE-base-zh 的向量维度indexfaiss.IndexFlatIP(dimension)# 内积相似度# 文档库docs[昇腾NPU是华为研发的AI处理器基于达芬奇架构,CANN是昇腾计算架构包含算子库、图引擎、编译器等组件,ATB是昇腾NPU上的大模型推理加速库,]# 文档向量化doc_vectorsembed_model.encode(docs)index.add(np.array(doc_vectors))# 检索query_vectorembed_model.encode([什么是CANN])scores,indicesindex.search(np.array(query_vector),k2)# Top-2 文档retrieved_docs[docs[i]foriinindices[0]]LLM 部署fromatbimportLLM,SamplingParams llmLLM(meta-llama/Llama-2-7b-hf,devicenpu:0,prefix_cachingPrefixCachingConfig(enableTrue),# 系统提示缓存)defrag_generate(query,retrieved_docs):# 拼接 promptsystem_prompt请根据以下参考资料回答问题。如果资料中没有相关信息请回答我不确定。\n\n参考资料\ncontext\n.join(f{i1}.{doc}fori,docinenumerate(retrieved_docs))promptf{system_prompt}{context}\n\n问题{query}\n回答paramsSamplingParams(max_tokens512,temperature0.3)resultllm.generate(prompt,params)returnresult多卡部署Embedding 和 LLM 分卡两张 NPU 各跑一个模型避免显存竞争# NPU:0 跑 Embeddingembed_modelLLM(BAAI/bge-base-zh-v1.5,devicenpu:0,taskembedding)# NPU:1 跑 LLMllmLLM(meta-llama/Llama-2-7b-hf,devicenpu:1)检索和生成可以并行LLM 生成回答时Embedding 模型同时处理下一个问题的向量。Chunk 策略文档切 Chunk 的粒度影响检索质量defchunk_text(text,chunk_size512,overlap50):滑动窗口切分overlap 保证上下文连续chunks[]foriinrange(0,len(text),chunk_size-overlap):chunktext[i:ichunk_size]chunks.append(chunk)returnchunks# 每 512 token 一段重叠 50 tokenchunkschunk_text(long_document,chunk_size512,overlap50)Chunk 太大1024 token→ 检索不精确噪声多。Chunk 太小128 token→ 语义不完整回答缺上下文。推荐 256-512 tokenoverlap 10%。Reranker先检索 Top-20再用 Reranker 精排到 Top-5fromatbimportLLM# Cross-Encoder RerankerrerankerLLM(BAAI/bge-reranker-base,devicenpu:0,taskrerank,)# 粗检索 Top-20scores,indicesindex.search(query_vector,k20)retrieved[docs[i]foriinindices[0]]# 精排 Top-5rankedreranker.rerank(query,retrieved,top_k5)final_docs[r.textforrinranked]Reranker 的 Cross-Encoder 比双塔 Embedding 更准但慢 10×。所以先粗后精。端到端延迟Atlas 800I A2BGE-base-zh Llama2-7B阶段延迟Embedding1 条查询5msFAISS 检索100K 文档2msRerank20 条50msLLM 生成500 token7.5s端到端7.6sEmbedding 检索只占 1%瓶颈在 LLM 生成。Speculative Decoding 或量化可以加速 LLM。RAG 在昇腾NPU 上的部署关键是两个模型分卡跑、Chunk 粒度 256-512 token、Reranker 先粗后精。ATB 同时支持 Embedding 和 LLM 推理一个框架搞定。仓库在这里https://atomgit.com/cann/ATBhttps://atomgit.com/cann/torch_npu

基于Arduino与红外传感的智能赛车圈速计时器设计与实现

1. 项目缘起与核心需求解析去年圣诞节，我给孙子们买了一套轨道赛车玩具。孩子们玩得不亦乐乎，但没过多久，他们就提出了一个“专业”意见：这赛道怎么没有圈速计时器？没有数字显示跑了多少圈、每圈用了多久，比…

2026/5/26 2:23:10 阅读更多

同传译前准备之韬定律？华为「韬（τ）定律」一、提出背景2026年5月25日，华为董事、半导体业务部总裁何庭波在上海ISCAS 2026（国际电路与系统研讨会）上，正式发表韬（τ）定律，这是中国首

同传译前准备之韬定律？华为「韬（τ）定律」一、提出背景 2026年5月25日，华为董事、半导体业务部总裁何庭波在上海ISCAS 2026（国际电路与系统研讨会）上，正式发表韬（τ）定律…

2026/5/26 2:23:10 阅读更多

Windows自带的硬盘医生：当移动硬盘提示0x80070570时，除了CHKDSK你还可以试试这些方法

Windows磁盘修复全攻略：超越CHKDSK的5种专业解决方案当移动硬盘突然弹出"0x80070570 文件或目录损坏且无法读取"的错误提示时，多数技术文章只会告诉你运行 CHKDSK /f 命令。但真实情况往往更复杂——可能是磁盘锁死导致命令无法执行&#x…

2026/5/26 2:21:49 阅读更多

嵌入式开发冷知识：华大MCU的Flash擦写函数，光放对位置还不够

华大MCU Flash擦写函数地址约束的深度解析与实战避坑指南引言在华大MCU的嵌入式开发中，Flash存储器的操作一直是开发者必须掌握的核心技能。不同于常规MCU的Flash操作，华大芯片对擦写函数的存放位置有着特殊要求——必须位于0x8000地址之前。这个看似简单…

2026/5/26 5:27:20 阅读更多

RT-Thread线程管理避坑指南：为什么你的rt_thread_suspend()会失效？

RT-Thread线程管理避坑指南：为什么你的rt_thread_suspend()会失效？在嵌入式开发中，线程管理是RTOS的核心功能之一。RT-Thread作为一款国产实时操作系统，其线程调度机制设计精巧但也不乏陷阱。许多开发者在尝试使用rt_thread_suspe…

2026/5/26 5:27:00 阅读更多

Seedance 2.0全栈AI舞蹈生成：C++17引擎+HDRP实时渲染工作流

1. 这不是普通“源码包”，而是一套可立即上手的实时渲染AI舞蹈生成工作流Seedance 2.0这个标题里藏着三个被多数人忽略的关键信号：“全栈”不是营销话术，“C17核心引擎”意味着它绕开了Python生态的性能天花板，“HDRP适配补丁”则…

2026/5/26 5:26:39 阅读更多

C#猜数字游戏的工程化重构：从玩具代码到生产级设计

1. 这不是玩具代码：为什么一个“猜数字”游戏值得用C#认真重写三遍很多人第一次接触编程，都是从“猜数字”开始的——输入一个数，程序告诉你“太大了”“太小了”或“恭喜猜中”。它看起来简单得像儿童积木，甚至被不少初学者当成“…

2026/5/26 5:26:19 阅读更多

避坑指南：用Vivado写Verilog状态机时，三段式描述遇到的锁存器、组合环路警告怎么破？

Vivado中三段式状态机设计避坑实战：从锁存器警告到组合环路解析1. 状态机设计中的典型陷阱与Vivado特性在FPGA开发中，状态机作为核心控制单元，其设计质量直接影响系统稳定性。Xilinx Vivado工具对代码风格有独特偏好，当开发者采用…

2026/5/26 5:25:17 阅读更多

【行业首发压力测试】：DeepSeek-R1 vs CodeLlama-70B代码解释准确率对比（附12类典型错误模式速查表）

更多请点击： https://intelliparadigm.com 第一章：DeepSeek-R1代码解释能力概览 DeepSeek-R1 是一款专为代码理解与生成优化的大语言模型，其核心优势在于对多语言、跨范式代码的深度语义解析能力。不同于通用大模型仅依赖表面模式匹配&#…

2026/5/26 5:24:57 阅读更多

Claude Code Skill动态发现机制全解析：为什么你的AI会自动执行代码

文章目录前言一、那个让我怀疑AI成精的自动commit事件二、静态注入：Claude偷偷给模型塞的小纸条三、Skill工具：模型自己给自己发指令的自导自演四、动态注入：Skill集合变了怎么办？五、语义匹配注入：当Skill多到烧不起t…

2026/5/26 0:00:17 阅读更多

ssm高校普法系统（10101）

有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码SQL脚本）配套文档（LWPPT开题报告/任务书）远程调试控屏包运行一键启动项目&…

2026/5/26 0:01:18 阅读更多

强化学习策略参数调节方法及值迭代算法实现 CS188 Proj3 学习笔记

强烈推荐的更好的阅读体验 Q1.Value Iteration 第一个问题是最基础的值迭代实现，这个问题没有什么难度，主要就是一边看着公式一遍敲代码复现。可以先回顾一下Note8中的Value Iteration框架.唯一唯一需要注意的就是需要使用的是batch版本，而…

2026/5/26 0:01:39 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/26 2:55:24 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/26 2:55:26 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/26 1:30:55 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/25 15:34:05 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/25 15:07:25 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/25 11:05:00 阅读更多

相关文章