CANN Qwen密集模型NPU推理

发布时间：2026/7/1 14:56:03

Qwen Dense Models NPU Inference【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer统一的 Qwen2/Qwen3 Dense非MoE模型推理适配支持以下模型变体模型model_name特性Qwen3-8Bqwen3_8bQK-Norm, attention_biasFalseQwen2.5-7B-Instructqwen25_7b_instruct无QK-Norm, attention_biasTrue特性统一建模代码通过 HuggingFace config.json 自动识别模型变体支持在线权重切分无需离线预处理支持可选的多卡TP并行部署支持 Packed SequenceTND格式Prefill/Decode 阶段均使用打包序列支持 Page Attention 块式KV Cache管理已验证特性特性状态ge_graph 图模式✅ 已验证npugraph_ex含static_kernel✅ 已验证Packed Sequence (TND)✅ 已支持Page Attention✅ 已支持支持的产品型号Atlas A2 系列产品 Atlas A3 系列产品软件版本软件版本CANN8.5.0torch_npu2.8.0transformers4.55.0快速开始环境准备安装CANN软件包。本样例的编译执行依赖CANN开发套件包cann-toolkit与CANN二进制算子包cann-kernels支持的CANN软件版本为CANN 8.5.0。请从软件包下载地址下载Ascend-cann-toolkit_${version}_linux-${arch}.run与Atlas-A3-cann-kernels_${version}_linux-${arch}.runA3环境或Ascend-cann-kernels-910b_${version}_linux-${arch}.runA2环境软件包并参考CANN安装文档进行安装。${version}表示CANN包版本号如8.5.0。${arch}表示CPU架构如aarch64、x86_64。安装Ascend Extension for PyTorchtorch_npu。Ascend Extension for PyTorchtorch_npu为支撑PyTorch框架运行在NPU上的适配插件本样例支持的Ascend Extension for PyTorch版本为2.8.0PyTorch版本为2.8.0。请从软件包下载地址下载v2.8.0-7.3.0源码参考源码编译安装。下载项目源码并安装依赖的python库。# 下载项目源码以master分支为例 git clone https://gitcode.com/cann/cann-recipes-infer.git # 安装依赖的python库仅支持python 3.11 cd cann-recipes-infer pip3 install -r ./models/qwen/requirements.txt配置样例运行所需环境信息。修改executor/scripts/set_env.sh中的如下字段cann_path: CANN软件包安装路径例如/usr/local/Ascend/ascend-toolkit/latest。说明HCCL相关配置如HCCL_SOCKET_IFNAME、HCCL_OP_EXPANSION_MODE可以参考集合通信文档并在executor/scripts/function.sh中自定义配置。权重准备从 HuggingFace 获取原始权重例如Qwen/Qwen3-8BQwen/Qwen2.5-7B-Instruct配置与执行配置推理执行需要加载的权重文件以及YAML文件。修改YAML文件中model_path参数。关于YAML文件中的更多配置说明可参见InferenceConfig使用指南。在models/qwen/config目录下已提供了不同模型和并行度的YAML样例供您参考Qwen3-8B:qwen3_8b_1tp.yaml单卡部署qwen3_8b_2tp.yaml2卡TP并行部署Qwen2.5-7B-Instruct:qwen25_7b_instruct_1tp.yaml单卡部署qwen25_7b_instruct_2tp.yaml2卡TP并行部署将YAML文件中的model_path参数设置为权重文件存储路径。修改models/qwen/infer.sh脚本中YAML_FILE_NAME参数。执行推理cd models/qwen bash infer.sh【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

Ollama本地大模型如何通过MCP协议连接外部工具实现能力扩展

1. 项目概述：一个连接智能世界的桥梁最近在折腾本地大模型，特别是Ollama这个工具，感觉像是给自己电脑装了个私人AI助手，用起来确实方便。但玩久了就发现一个问题：Ollama本身是个“孤岛”，它能把各种开源模型…

2026/7/2 11:01:56 阅读更多

2026年降AI工具改写自然度横评：五款主流工具改写后可读性完整对比测试报告

2026年降AI工具改写自然度横评：五款主流工具改写后可读性完整对比测试报告同一篇论文，拿三款工具分别处理，记录了完整检测数据。结论先说：嘎嘎降AI（www.aigcleaner.com）效果最稳，价格也最低…

2026/7/1 3:37:06 阅读更多

文献计量学实战：用Bibliometrix与VOSviewer绘制AI创业金融知识图谱

1. 项目概述：当AI遇见创业金融，我们如何用数据“看见”知识？在创业与金融的世界里，每天都有海量的学术论文、研究报告和技术文档产生。对于研究者、投资人或是创业者而言，一个核心的困惑是：这个领域到底在研…

2026/6/29 21:20:59 阅读更多

板球击球手50分节点破百概率预测模型

1. 项目概述：当板球遇上数据科学，我们到底在预测什么？“MoneyBalling Cricket”这个标题一出来，老球迷可能下意识就想到了2011年那部讲棒球经理用数据颠覆传统选人逻辑的电影《点球成金》。但这里说的不是棒球，是板球—…

2026/7/2 11:03:30 阅读更多

三菱Q系列以太网通讯架构赋能城市排水管网智能调度管理系统

一、行业背景与项目概况1.1 行业背景与核心需求市政排水系统是城市“生命线”工程，涵盖污水收集、提升、输送、处理全链条，随着我国城镇化率突破66%，海绵城市、智慧城市建设持续推进，市政排水行业正摆脱传统人工运维模式&#xff…

2026/7/2 11:02:49 阅读更多

中兴光猫工厂模式破解：5分钟开启永久Telnet访问权限

中兴光猫工厂模式破解：5分钟开启永久Telnet访问权限【免费下载链接】zteOnu A tool that can open ZTE onu device factory mode 项目地址: https://gitcode.com/gh_mirrors/zt/zteOnu 中兴光猫破解工具zteOnu是一款专为网络技术爱好者和专业管理员设计的强…

2026/7/2 11:02:49 阅读更多

Bilibili Toolkit会员购抢购实战指南：高效自动化抢单的完整解决方案

Bilibili Toolkit会员购抢购实战指南：高效自动化抢单的完整解决方案【免费下载链接】Bilibili-Toolkit 🛠️ 哔哩哔哩（B站）辅助工具箱，支持Cookie/Token/Password融合持久化登录与多用户操作项目地址: https://git…

2026/7/2 11:02:29 阅读更多

计算机毕业设计之公廉租房维保系统

随着科学技术的飞速发展，社会的方方面面、各行各业都在努力与现代的先进技术接轨，通过科技手段来提高自身的优势，公廉租房维保系统当然也不能排除在外，从房屋维修的统计和分析，在过程中会产生大量的、各种各样的数据。…

2026/7/2 11:02:29 阅读更多

ESP芯片烧录神器：esptool.py完整指南 - 5分钟快速上手

ESP芯片烧录神器：esptool.py完整指南 - 5分钟快速上手【免费下载链接】esptool Serial utility for flashing, provisioning, and interacting with Espressif SoCs 项目地址: https://gitcode.com/gh_mirrors/es/esptool esptool.py是乐鑫科技（…

2026/7/2 11:02:09 阅读更多

Selenium元素定位全解析：从八大方法到实战策略

1. 项目概述：从“找东西”到“精准操控” 做自动化测试，尤其是Web UI自动化，最核心也最让人头疼的一步是什么？不是写复杂的业务逻辑，也不是处理异步加载，而是最基础的—— 让程序找到页面上那个你想操作的…

2026/7/2 0:00:12 阅读更多

移动端UI自动化测试框架Maestro终极指南：从入门到实战

1. 项目概述：为什么是Maestro？ 如果你正在寻找一个能让你快速上手、告别繁琐配置、并且对移动端UI自动化测试真正友好的框架，那么Maestro很可能就是你一直在等的那个答案。我接触过Appium、Espresso、XCUITest，也折腾过各种基于图…

2026/7/2 0:00:12 阅读更多

BurpSuite Cluster Bomb模式深度避坑指南：从原理到实战的完整爆破策略

1. 项目概述：从“能用”到“精通”的必经之路如果你正在学习或从事网络安全测试，尤其是Web应用安全评估，那么BurpSuite的Intruder模块绝对是你绕不开的核心工具。而Intruder模块里，功能最强大、也最让人又爱又恨的，莫过…

2026/7/2 0:00:33 阅读更多

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

6个月前的2025年12月，Boris Cherny 公开宣布自己卸载了 IDE。一时间，Vibe Coding 成了全行业最热的话题。6个月后，当我们回过头来拉一份真实账本，发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/7/2 0:09:58 阅读更多

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

📫 个人主页：深夜coding算法 📣 专栏系列：2026年华为最新OD机试题库详解 🔥 一次订阅，永久解锁 | 持续更新100篇 | 6语言全覆盖文章目录❄️前言：☀️一：题目描述🌙 题目…

2026/7/2 1:54:44 阅读更多

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

2026/7/2 1:54:44 阅读更多

FAE放射组学分析工具：医学影像特征探索的完整解决方案

FAE放射组学分析工具：医学影像特征探索的完整解决方案【免费下载链接】FAE FeAture Explorer 项目地址: https://gitcode.com/gh_mirrors/fae/FAE 你是否曾经面对海量医学影像数据感到无从下手？想要从CT、MRI等影像中提取有价值的定量特征&#…

2026/7/2 0:02:27 阅读更多

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南【免费下载链接】happy-llm 📚 从零开始构建大模型项目地址: https://gitcode.com/GitHub_Trending/ha/happy-llm 还在为大型多模态模型动辄数十亿参数、显存占用高而烦恼&…

2026/7/2 0:10:02 阅读更多

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址…