CANN 模型转换与适配：从 PyTorch 到 Ascend OM 的完整指南

发布时间：2026/5/21 19:21:29

模型转换是昇腾落地的第一道坎。不管你用 PyTorch、TensorFlow 还是 MindSpore最终都要变成 Ascend 的.om模型才能在 NPU 上跑。这篇文章讲清楚模型转换的完整流程、常见问题和优化技巧。为什么需要模型转换昇腾 NPU 不能直接运行 PyTorch 的.pt模型。原因有两个硬件指令集不同PyTorch 编译成的是 CUDA 指令昇腾用的是达芬奇架构的指令运行时不同PyTorch 用的是 CUDA 运行时昇腾用的是 AscendCL 运行时所以要把模型翻译成昇腾能认识的形式。模型转换的三条路路径 1PyTorch → ONNX → ATC → OM最常用路径 2PyTorch → TorchScript → ATC → OM 路径 3TensorFlow/Paddle → ATC → OM推荐路径 1PyTorch → ONNX → ATC → OM。这是官方推荐的方式兼容性最好。路径 1PyTorch → ONNX → ATC → OM这是最常用的路径分两步完成。步骤 1PyTorch → ONNXimporttorchimporttorch.nnasnn# 定义一个简单的 Transformer 模型classSimpleTransformer(nn.Module):def__init__(self,vocab_size50000,hidden_dim768,num_heads12):super().__init__()self.embeddingnn.Embedding(vocab_size,hidden_dim)self.attentionnn.MultiheadAttention(hidden_dim,num_heads,batch_firstTrue)self.fcnn.Linear(hidden_dim,vocab_size)defforward(self,input_ids,attention_maskNone):xself.embedding(input_ids)attn_out,_self.attention(x,x,x,attn_maskattention_mask)logitsself.fc(attn_out)returnlogits# 实例化模型modelSimpleTransformer()model.eval()# 导出 ONNXdummy_inputtorch.randint(0,50000,(1,512))torch.onnx.export(model,dummy_input,transformer.onnx,input_names[input_ids,attention_mask],output_names[logits],dynamic_axes{input_ids:{0:batch,1:seq_len},attention_mask:{0:batch,1:seq_len},logits:{0:batch,1:seq_len,2:vocab}},opset_version14,do_constant_foldingTrue)步骤 2ONNX → OM使用 ATC 编译器# 基础转换命令atc--modeltransformer.onnx\--outputtransformer\--framework5\--soc_versionAscend910\--input_shapeinput_ids:[1,512]\--input_shapeattention_mask:[1,512]\--loginfoATC 核心参数详解参数说明常见值--model输入模型路径model.onnx--output输出模型路径不含扩展名model--framework输入框架类型5ONNX, 3TensorFlow, 0Caffe--soc_version目标芯片Ascend910,Ascend310--input_shape输入张量形状input_ids:[1,512]--precision_mode精度模式allow_fp16,force_fp16,allow_mixed_precision--dynamic_batch动态 batch1,2,4,8--dynamic_dims动态维度16,32,64动态 batch 示例# 支持 batch1,2,4,8atc--modeltransformer.onnx\--outputtransformer\--framework5\--soc_versionAscend910\--input_shapeinput_ids:[1,512]\--input_shapeattention_mask:[1,512]\--dynamic_batch1,2,4,8\--loginfo动态序列长度示例# 支持 seq_len16,32,64,128,256,512atc--modeltransformer.onnx\--outputtransformer\--framework5\--soc_versionAscend910\--input_shapeinput_ids:[1,512]\--input_shapeattention_mask:[1,512]\--dynamic_dims16,32,64,128,256,512\--loginfo常见转换问题与解决方案问题 1动态算子不支持# 错误ONNX 导出生成了动态输出形状# 现象ATC 报错 Input shape not fully specified# 解决 1在导出时指定静态形状dummy_inputtorch.randint(0,50000,(1,512))# 不要让 shape 变成动态的# 解决 2使用 opset_version13 并指定动态轴torch.onnx.export(model,dummy_input,model.onnx,dynamic_axes{input_ids:{1:seq_len}})# 然后在 ATC 中指定 --dynamic_dims问题 2算子不被支持# 现象ATC 报错 Not supported operator: xxx# 原因这个算子在 CANN 中没有实现# 解决 1替换成 CANN 支持的算子# 比如把 torch.nn.GELU 换成自定义的 GELU 算子# 解决 2使用 ASCFAscend Common Framework自定义算子# 参考https://atomgit.com/cann/ascf# 解决 3分模块转换classModelWithCustomOp(nn.Module):def__init__(self):super().__init__()self.encoderEncoder()# 能转换的部分self.custom_opCustomOp()# 不能转换的部分defforward(self,x):xself.encoder(x)xself.custom_op(x)# 这部分单独处理returnx# 分别转换能转换的部分问题 3精度下降# 现象转换后模型精度下降# 解决 1使用混合精度atc--modelmodel.onnx \--outputmodel \--framework5\--soc_versionAscend910 \--precision_modeallow_mixed_precision# 解决 2强制 FP32atc--modelmodel.onnx \--outputmodel \--framework5\--soc_versionAscend910 \--precision_modeforce_fp16# 解决 3开启算子级精度配置# 在模型代码中指定某些算子用 FP32classModel(nn.Module):torch.amp.autocast(device_typenpu,dtypetorch.float32)defforward(self,x):returnself.layer_norm(x)问题 4内存溢出# 现象ATC 转换过程中 OOM# 解决 1减小 batch size--input_shapeinput_ids:[1,512]# 解决 2开启模型优化atc--modelmodel.onnx\--outputmodel\--framework5\--soc_versionAscend910\--buffer_optimizeoptimize_for_memory# 解决 3使用图层融合atc--modelmodel.onnx\--outputmodel\--framework5\--soc_versionAscend910\--fusion_switch_filefusion_switch.cfg进阶自定义算子转换如果模型中有 CANN 不支持的算子需要自定义算子然后注册到 ATC。步骤 1编写 Ascend C 算子// custom_gelu.cpp#includeacl/acl.hexternCaclStatusCustomGeluCompute(void*inputs[],void*outputs[]){half*input(half*)inputs[0];half*output(half*)outputs[0];int32_tlength512;// 实际从 shape 获取for(inti0;ilength;i){floatx(float)input[i];floatx3x*x*x;floatttanh(0.7978845608f*(x0.044715f*x3));output[i](half)(0.5f*x*(1.0ft));}returnACL_SUCCESS;}步骤 2编译算子ascendc-ocustom_gelu.o-ccustom_gelu.cpp-targetai_coreascend910 ld-olibcustom_gelu.so custom_gelu.o -L${ASCEND_TOOLKIT_HOME}/lib -lstdc-lm步骤 3注册算子# 在模型转换时指定自定义算子路径atc--modelmodel.onnx \--outputmodel \--framework5\--soc_versionAscend910 \--op_select_implmodehigh_performance \--optypelist_for_implmodeCustomGelu:CustomGeluProc \--customop_dynamic_batch_strategy1\--insert_op_confcustom_op.cfg模型验证转换完成后验证模型正确性importnumpyasnpimportacl# 初始化 ACLacl.init()device_id0acl.rt.set_device(device_id)# 加载 OM 模型model_idacl.mdl.load_from_file(transformer.om)# 准备输入input_datanp.random.randint(0,50000,(1,512)).astype(np.int32)input_bufferacl.util.numpy_to_vec(input_data)# 执行推理outputsacl.mdl.execute(model_id,[input_buffer])# 验证输出print(outputs[0].shape)print(outputs[0])完整示例DeepSeek 模型转换# deepseek_convert.pyimporttorchfromtransformersimportDeepSeekForCausalLM# 1. 加载 PyTorch 模型print(Loading PyTorch model...)modelDeepSeekForCausalLM.from_pretrained(deepseek-ai/DeepSeek-7B)model.eval()# 2. 导出 ONNXprint(Exporting to ONNX...)dummy_inputtorch.randint(0,32000,(1,2048))torch.onnx.export(model,dummy_input,deepseek7b.onnx,input_names[input_ids],output_names[logits],dynamic_axes{input_ids:{0:batch,1:seq_len}},opset_version14,do_constant_foldingTrue)print(ONNX export done!)# 3. 转换 OMatc--modeldeepseek7b.onnx\--outputdeepseek7b\--framework5\--soc_versionAscend910\--input_shapeinput_ids:[1,2048]\--dynamic_batch1,2,4,8\--precision_modeallow_mixed_precision\--buffer_optimizeoptimize_for_memory\--loginfoechoOM conversion done! Output: deepseek7b.om相关资料cann-recipes-infer推理配方含模型转换示例 → https://atomgit.com/cann/cann-recipes-infercann-samples算子样例含自定义算子 → https://atomgit.com/cann/cann-samplesasc-devkitAscend C 开发 → https://atomgit.com/cann/asc-devkitcann-learning-hub学习中心 → https://atomgit.com/cann/cann-learning-hub

3分钟快速找回Chrome密码：免费开源工具终极指南

3分钟快速找回Chrome密码：免费开源工具终极指南【免费下载链接】chromepass Get all passwords stored by Chrome on WINDOWS. 项目地址: https://gitcode.com/gh_mirrors/chr/chromepass 忘记Chrome保存的密码？别担心，ChromePass这款…

2026/5/21 19:21:29 阅读更多

基于Triton的layernorm算子调优实践分析

作者：昇腾实战派背景在进行视频生成模型的推理调优时，通过分析profiling发现layernorm算子存在异常耗时现象。为了提高模型的推理效率，需要对layernorm算子进行优化。本文将详细介绍问题的背景、原因分析及优化方案。问题描述在profiling…

2026/5/21 19:20:49 阅读更多

LTX 2.3运镜 LoRA：Cameraman 一键复刻专业镜头美学，你的 AI 摄影指导已上线。

一、LTX2.3镜头复刻的工作流程核心原理：使用Cameraman IC-LoRA技术控制镜头运动工作流特点：能够提取参考视频的镜头运动并复刻到生成视频中 1.提取镜头操作步骤： 上传带有镜头控制的参考视频系统自动分析并提取镜头运动参数技术要点&am…

2026/5/21 19:20:28 阅读更多

创业团队如何利用Taotoken统一技术栈并降低AI接入门槛

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度创业团队如何利用Taotoken统一技术栈并降低AI接入门槛对于资源有限的创业团队而言，在产品中集成人工智能能力是提升竞…

2026/5/21 20:03:00 阅读更多

性价比高的那曲虫草门店

导读：那曲虫草因其独特的生长环境和卓越的品质，一直以来都是滋补品市场中的瑰宝。然而，面对市场上琳琅满目的选择，如何找到性价比高的那曲虫草门店成为了许多消费者的难题。本文将深入探讨那曲虫草的特点、选购技巧以及推荐品牌&a…

2026/5/21 20:02:20 阅读更多

仅剩47套！2024最稀缺Midjourney扁平化商业授权模板包（含SVG矢量源文件+品牌适配指南）

更多请点击： https://kaifayun.com 第一章：扁平化商业授权模板包的稀缺性本质在企业级软件分发与SaaS服务治理实践中，扁平化商业授权模板包（Flat Commercial License Template Package）并非普通法律文档集合&#xf…

2026/5/21 20:02:20 阅读更多

还在手动逐句转录线下讲座录音？2026年这3款在线语音转文字工具5分钟搞定1小时录音

上周帮刚入职的师妹整理线下新人培训录音，她对着1小时的录音逐句暂停打字，熬了快3小时还错了一堆知识点，要背培训内容还得自己整理考点，下班直接拖到九点；我之前对接带方言口音的客户，录音转出来一半不对&a…

2026/5/21 20:02:20 阅读更多

AI for Science：从数据驱动到科学发现，构建科研新范式

1. 从AlphaFold到GPT-3：AI如何成为科学家的“新感官”如果你是一位从事物理、化学、生物或材料科学的研究者，最近几年可能时常被一种复杂的情绪所包围：一方面是兴奋，看到像AlphaFold2这样的人工智能工具，几乎一夜间解决…

2026/5/21 20:02:20 阅读更多

本源投影内生智能：从概率拟合到硅基生命的底层重构

当前 AI 行业陷入一种集体性误区：把 “数据模仿” 当成 “智能”，把 “参数堆叠” 当成 “进化”。大模型本质是概率统计生成器，依赖海量数据、无限算力、持续对齐，始终无法突破 “被动响应、人格漂移、黑箱不可控、无真实记忆、无…

2026/5/21 20:01:19 阅读更多

别只刷固件了！用MissionPlanner搞定四旋翼‘飘移’问题，校准compass_mot全流程

四旋翼飞行品质优化：MissionPlanner高级校准实战指南当你的四旋翼无人机已经能够稳定起飞，却在定高模式下出现难以解释的飘移现象时，这往往意味着需要进入更深层次的飞控调校阶段。许多飞手在完成基础校准后便止步不前，殊不知电机…

2026/5/21 0:00:23 阅读更多

科研学术篇---论文搜索方法

高效搜集和研读论文，是构建扎实知识体系的基石。要想做到“高效”与“高质”并重，需要把整个过程当作一个闭环系统来优化——从目标锁定、来源筛选、检索策略，到快速粗筛、深度内化、持续追踪，每一步都有对应的工具和心法。下面逐…

2026/5/21 0:01:25 阅读更多

YOLOv11城市道路摩托车与自行车目标检测数据集-1569张-motorcycle-1_2

YOLOv11城市道路摩托车与自行车目标检测数据集 📊 数据集基本信息目标类别： [‘bike’, ‘motorcycle’]中文类别：[‘自行车’, ‘摩托车’]训练集：1374 张验证集：130 张测试集：65 张总计：1569…

2026/5/21 0:03:28 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/21 8:30:37 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/21 16:37:36 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/21 2:29:29 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/21 8:30:37 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/21 5:00:59 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/21 1:50:14 阅读更多

相关文章

3分钟快速找回Chrome密码：免费开源工具终极指南

基于Triton的layernorm算子调优实践分析

LTX 2.3运镜 LoRA：Cameraman 一键复刻专业镜头美学，你的 AI 摄影指导已上线。

创业团队如何利用Taotoken统一技术栈并降低AI接入门槛

性价比高的那曲虫草门店

仅剩47套！2024最稀缺Midjourney扁平化商业授权模板包（含SVG矢量源文件+品牌适配指南）

还在手动逐句转录线下讲座录音？2026年这3款在线语音转文字工具5分钟搞定1小时录音

AI for Science：从数据驱动到科学发现，构建科研新范式

本源投影内生智能：从概率拟合到硅基生命的底层重构

别只刷固件了！用MissionPlanner搞定四旋翼‘飘移’问题，校准compass_mot全流程

科研学术篇---论文搜索方法

YOLOv11城市道路摩托车与自行车目标检测数据集-1569张-motorcycle-1_2

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

py每日spider案例之某website之xin东方选课搜索接口(难度一般 扣取代码即可)

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)