Qwen Dense Models NPU Inference【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer统一的 Qwen2/Qwen3 Dense非MoE模型推理适配支持以下模型变体模型model_name特性Qwen3-8Bqwen3_8bQK-Norm, attention_biasFalseQwen2.5-7B-Instructqwen25_7b_instruct无QK-Norm, attention_biasTrue特性统一建模代码通过 HuggingFace config.json 自动识别模型变体支持在线权重切分无需离线预处理支持可选的多卡TP并行部署支持 Packed SequenceTND格式Prefill/Decode 阶段均使用打包序列支持 Page Attention 块式KV Cache管理已验证特性特性状态ge_graph 图模式✅ 已验证npugraph_ex含static_kernel✅ 已验证Packed Sequence (TND)✅ 已支持Page Attention✅ 已支持支持的产品型号Atlas A2 系列产品 Atlas A3 系列产品软件版本软件版本CANN8.5.0torch_npu2.8.0transformers4.55.0快速开始环境准备安装CANN软件包。本样例的编译执行依赖CANN开发套件包cann-toolkit与CANN二进制算子包cann-kernels支持的CANN软件版本为CANN 8.5.0。请从软件包下载地址下载Ascend-cann-toolkit_${version}_linux-${arch}.run与Atlas-A3-cann-kernels_${version}_linux-${arch}.runA3环境或Ascend-cann-kernels-910b_${version}_linux-${arch}.runA2环境软件包并参考CANN安装文档进行安装。${version}表示CANN包版本号如8.5.0。${arch}表示CPU架构如aarch64、x86_64。安装Ascend Extension for PyTorchtorch_npu。Ascend Extension for PyTorchtorch_npu为支撑PyTorch框架运行在NPU上的适配插件本样例支持的Ascend Extension for PyTorch版本为2.8.0PyTorch版本为2.8.0。请从软件包下载地址下载v2.8.0-7.3.0源码参考源码编译安装。下载项目源码并安装依赖的python库。# 下载项目源码以master分支为例 git clone https://gitcode.com/cann/cann-recipes-infer.git # 安装依赖的python库仅支持python 3.11 cd cann-recipes-infer pip3 install -r ./models/qwen/requirements.txt配置样例运行所需环境信息。修改executor/scripts/set_env.sh中的如下字段cann_path: CANN软件包安装路径例如/usr/local/Ascend/ascend-toolkit/latest。说明HCCL相关配置如HCCL_SOCKET_IFNAME、HCCL_OP_EXPANSION_MODE可以参考集合通信文档并在executor/scripts/function.sh中自定义配置。权重准备从 HuggingFace 获取原始权重例如Qwen/Qwen3-8BQwen/Qwen2.5-7B-Instruct配置与执行配置推理执行需要加载的权重文件以及YAML文件。修改YAML文件中model_path参数。关于YAML文件中的更多配置说明可参见InferenceConfig使用指南。在models/qwen/config目录下已提供了不同模型和并行度的YAML样例供您参考Qwen3-8B:qwen3_8b_1tp.yaml单卡部署qwen3_8b_2tp.yaml2卡TP并行部署Qwen2.5-7B-Instruct:qwen25_7b_instruct_1tp.yaml单卡部署qwen25_7b_instruct_2tp.yaml2卡TP并行部署将YAML文件中的model_path参数设置为权重文件存储路径。修改models/qwen/infer.sh脚本中YAML_FILE_NAME参数。执行推理cd models/qwen bash infer.sh【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
CANN Qwen密集模型NPU推理
发布时间:2026/7/1 14:56:03
Qwen Dense Models NPU Inference【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer统一的 Qwen2/Qwen3 Dense非MoE模型推理适配支持以下模型变体模型model_name特性Qwen3-8Bqwen3_8bQK-Norm, attention_biasFalseQwen2.5-7B-Instructqwen25_7b_instruct无QK-Norm, attention_biasTrue特性统一建模代码通过 HuggingFace config.json 自动识别模型变体支持在线权重切分无需离线预处理支持可选的多卡TP并行部署支持 Packed SequenceTND格式Prefill/Decode 阶段均使用打包序列支持 Page Attention 块式KV Cache管理已验证特性特性状态ge_graph 图模式✅ 已验证npugraph_ex含static_kernel✅ 已验证Packed Sequence (TND)✅ 已支持Page Attention✅ 已支持支持的产品型号Atlas A2 系列产品 Atlas A3 系列产品软件版本软件版本CANN8.5.0torch_npu2.8.0transformers4.55.0快速开始环境准备安装CANN软件包。本样例的编译执行依赖CANN开发套件包cann-toolkit与CANN二进制算子包cann-kernels支持的CANN软件版本为CANN 8.5.0。请从软件包下载地址下载Ascend-cann-toolkit_${version}_linux-${arch}.run与Atlas-A3-cann-kernels_${version}_linux-${arch}.runA3环境或Ascend-cann-kernels-910b_${version}_linux-${arch}.runA2环境软件包并参考CANN安装文档进行安装。${version}表示CANN包版本号如8.5.0。${arch}表示CPU架构如aarch64、x86_64。安装Ascend Extension for PyTorchtorch_npu。Ascend Extension for PyTorchtorch_npu为支撑PyTorch框架运行在NPU上的适配插件本样例支持的Ascend Extension for PyTorch版本为2.8.0PyTorch版本为2.8.0。请从软件包下载地址下载v2.8.0-7.3.0源码参考源码编译安装。下载项目源码并安装依赖的python库。# 下载项目源码以master分支为例 git clone https://gitcode.com/cann/cann-recipes-infer.git # 安装依赖的python库仅支持python 3.11 cd cann-recipes-infer pip3 install -r ./models/qwen/requirements.txt配置样例运行所需环境信息。修改executor/scripts/set_env.sh中的如下字段cann_path: CANN软件包安装路径例如/usr/local/Ascend/ascend-toolkit/latest。说明HCCL相关配置如HCCL_SOCKET_IFNAME、HCCL_OP_EXPANSION_MODE可以参考集合通信文档并在executor/scripts/function.sh中自定义配置。权重准备从 HuggingFace 获取原始权重例如Qwen/Qwen3-8BQwen/Qwen2.5-7B-Instruct配置与执行配置推理执行需要加载的权重文件以及YAML文件。修改YAML文件中model_path参数。关于YAML文件中的更多配置说明可参见InferenceConfig使用指南。在models/qwen/config目录下已提供了不同模型和并行度的YAML样例供您参考Qwen3-8B:qwen3_8b_1tp.yaml单卡部署qwen3_8b_2tp.yaml2卡TP并行部署Qwen2.5-7B-Instruct:qwen25_7b_instruct_1tp.yaml单卡部署qwen25_7b_instruct_2tp.yaml2卡TP并行部署将YAML文件中的model_path参数设置为权重文件存储路径。修改models/qwen/infer.sh脚本中YAML_FILE_NAME参数。执行推理cd models/qwen bash infer.sh【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考