CANN科学模型NPU迁移代码模式

发布时间：2026/7/4 8:17:02

参考代码级迁移常见模式按需阅读【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills无主流程 §。与 part-04-code-migration.md §5.2§5.3 配合命令见 part-07-commands.md。1. PyTorch统一 device 抽象推荐避免散落.cuda()/.npu()在工程内集中import torch def _npu_available() - bool: try: import torch_npu # noqa: F401 # side effect: registers torch.npu backend return torch.npu.is_available() except ImportError: return False def get_device(prefer: str auto) - torch.device: prefer: cpu | cuda | npu | auto默认 autonpu → cuda → cpu prefer prefer.lower() if prefer cpu: return torch.device(cpu) if prefer npu: return torch.device(npu:0) if _npu_available() else torch.device(cpu) if prefer cuda: return torch.device(cuda:0) if torch.cuda.is_available() else torch.device(cpu) if prefer ! auto: raise ValueError(funknown prefer{prefer!r}; use cpu | cuda | npu | auto) if _npu_available(): return torch.device(npu:0) if torch.cuda.is_available(): return torch.device(cuda:0) return torch.device(cpu) device get_device(auto) # NPU 迁移默认 # device get_device(cuda) # 仅跑 GPU baseline 时用不会误选 NPU model.to(device) tensor tensor.to(device, non_blockingFalse)prefer行为cpu固定 CPUnpu优先 NPU不可用则回退 CPU不会选 CUDAcuda优先 CUDA不可用则回退 CPU不会选 NPU适合补 GPU baselineauto默认NPU → CUDA → CPU与 NPU 迁移主路径一致落盘在Mig_report§5.1 注明是否新增device_utils及调用点。2. PyTorchCUDA → NPU 对照表CUDA 写法NPU 常见改法备注tensor.cuda()tensor.npu()或.to(npu:0)须已import torch_nputorch.cuda.device(i)torch.npu.device(i)torch.cuda.synchronize()torch.npu.synchronize()性能 profiling 口径一致torch.cuda.amp.autocasttorch.npu.amp.autocast以当前 torch_npu 文档为准GradScaler()torch.npu.amp.GradScaler()核对是否启用pin_memoryTrue通常FalseDataLoaderbackendncclbackendhccl分布式CUDA_VISIBLE_DEVICESASCEND_RT_VISIBLE_DEVICES多卡可见性检索命令改前扫描rg -n \.cuda\(|cuda:|torch\.cuda|CUDA_VISIBLE|nccl --glob *.py3. PyTorch单卡训练 loop 最小改动import torch import torch_npu # noqa: F401 # side effect: must import before creating npu tensors device torch.device(npu:0) model model.to(device) optimizer torch.optim.Adam(model.parameters()) scaler torch.npu.amp.GradScaler(enableduse_amp) for batch in loader: inputs batch[image].to(device, non_blockingFalse) labels batch[label].to(device, non_blockingFalse) optimizer.zero_grad(set_to_noneTrue) with torch.npu.amp.autocast(enableduse_amp): loss model(inputs, labels) scaler.scale(loss).backward() scaler.step(optimizer) scaler.update()smoke跑 1 个 batch检查loss.item()有限且无 NaN → 记入Mig_report§6。4. PyTorchHCCL 分布式初始化示意import os import torch import torch.distributed as dist import torch_npu # noqa: F401 # side effect: registers torch.npu backend def init_dist(): rank int(os.environ[RANK]) local_rank int(os.environ[LOCAL_RANK]) torch.npu.set_device(local_rank) dist.init_process_group(backendhccl) return rank, local_rank启动命令见 part-07-commands.md「多卡 HCCL」。5. 自定义算子 / CUDA 扩展处置顺序查项目与 CANN 是否已有 Ascend 算子或torch_npu融合 API小算子改CPU 回退在 forward 内x.cpu()算完再.to(device)注明性能替换为等价torch算子组合仍不可行 →Mig_report§7 记录回流 part-02 / part-06def safe_op(x): if x.device.type npu: return legacy_cpu_impl(x.cpu()).to(x.device) return legacy_cpu_impl(x)6. MindSpore上下文与入口import mindspore as ms from mindspore import context context.set_context(modecontext.GRAPH_MODE, device_targetAscend, device_id0) def train_step(data, label): loss network(data, label) return loss动图调试可临时PYNATIVE_MODEsmoke再切回GRAPH_MODE做性能评测变更写入Mig_report§5.4。7. 预处理与 Golden 对齐Golden 对比前必须一致resize / crop / normalize 参数与基线同一实现勿 NPU 侧改顺序NCHWvsNHWC、mean/std 数值固定torch.manual_seed/numpyseed容差按目标精度设定默认 FP16rtol1e-2~1e-3、atol~1e-3勿照抄 FP32 级atol 1e-5→ 见Compare§3.1、part-07输出对比记录shape、max abs diff、mean abs diff、所用 rtol/atol →Compare§3.1、Mig_report§6。关联索引主清单part-04-code-migration.md命令part-07-commands.md排障part-09-examples-troubleshooting.md【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

智能解析技术赋能教育数字化转型：tchMaterial-parser的技术架构与应用实践

智能解析技术赋能教育数字化转型：tchMaterial-parser的技术架构与应用实践【免费下载链接】tchMaterial-parser 国家中小学智慧教育平台电子课本下载工具，帮助您从智慧教育平台中获取电子课本的 PDF 文件网址并进行下载，让您更方便地获取课…

2026/7/4 8:16:21 阅读更多

nwpu-cram软件项目管理案例：敏捷开发实践指南

nwpu-cram软件项目管理案例：敏捷开发实践指南【免费下载链接】nwpu-cram 西北工业大学/西工大/nwpu/npu软件学院复习(突击)资料！！ 项目地址: https://gitcode.com/GitHub_Trending/nw/nwpu-cram nwpu-cram作为西北工业大学软件学院的…

2026/7/4 8:16:01 阅读更多

Gloom的未来发展路线图：开源GitHub客户端的演进方向

Gloom的未来发展路线图：开源GitHub客户端的演进方向【免费下载链接】Gloom GitHub reimagined with Material You 项目地址: https://gitcode.com/gh_mirrors/glo/Gloom 想要探索GitHub客户端的未来发展方向吗？Gloom作为一款基于Material You设计…

2026/7/4 8:16:01 阅读更多

终极炉石传说插件HsMod：三步安装教程与50+实用功能详解

终极炉石传说插件HsMod：三步安装教程与50实用功能详解【免费下载链接】HsMod Hearthstone Modification Based on BepInEx 项目地址: https://gitcode.com/GitHub_Trending/hs/HsMod HsMod是一款基于BepInEx框架开发的炉石传说功能增强插件，为玩…

2026/7/4 9:29:12 阅读更多

3步优化：解锁Kitty终端在macOS上的GPU加速潜能

3步优化：解锁Kitty终端在macOS上的GPU加速潜能【免费下载链接】kitty If you live in the terminal, kitty is made for you! Cross-platform, fast, feature-rich, GPU based. 项目地址: https://gitcode.com/GitHub_Trending/ki/kitty 如果你生活在终端中…

2026/7/4 9:29:12 阅读更多

如何免费获取9大网盘高速下载权限：完整使用指南

如何免费获取9大网盘高速下载权限：完整使用指南【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云盘 /…

2026/7/4 9:29:12 阅读更多

HsMod：基于BepInEx的炉石传说终极增强插件完整指南

HsMod：基于BepInEx的炉石传说终极增强插件完整指南【免费下载链接】HsMod Hearthstone Modification Based on BepInEx 项目地址: https://gitcode.com/GitHub_Trending/hs/HsMod HsMod是基于BepInEx框架开发的炉石传说游戏增强插件，提供超过50项…

2026/7/4 9:28:32 阅读更多

纹理缺陷检测：传统滤波与频域分析的高效实践

在工业视觉检测领域，纹理缺陷检测一直是一个重要且具有挑战性的课题。随着深度学习技术的普及，基于卷积神经网络（CNN）的方法成为了主流。然而，在某些特定场景下，尤其是针对纺织、纸张、金属表面等具有规律性…

2026/7/4 9:27:51 阅读更多

Touch WX环境搭建教程：从安装到运行的5个简单步骤

Touch WX环境搭建教程：从安装到运行的5个简单步骤【免费下载链接】touchwx 小程序组件化解决方案。官网：https://www.wetouch.net/wx.html 项目地址: https://gitcode.com/gh_mirrors/to/touchwx Touch WX是一套完全免费的微信小程序开发框架&am…

2026/7/4 9:27:31 阅读更多

Playwright自动化测试实战：从零搭建现代Web测试框架

1. 项目概述：为什么是 Playwright？如果你正在为现代 Web 应用的自动化测试头疼，尤其是面对那些充斥着动态加载、复杂交互的单页应用（SPA），那么 Playwright 的出现，很可能就是你的解药。我接触过…

2026/7/4 0:00:16 阅读更多

SSRF漏洞攻防实战：从原理到绕过技巧与防御策略

1. 项目概述：从“内部请求”到“内网漫游”的SSRF攻防实战在渗透测试和红队评估的实战中，我们常常会遇到一种看似“温和”实则威力巨大的漏洞：服务器端请求伪造。它不像SQL注入那样直接操作数据库，也不像命令注入那样能瞬间拿到S…

2026/7/4 0:00:16 阅读更多

本地部署SAM Audio音频语义分割模型完整指南

1. 项目概述：为什么要在本地跑 SAM Audio？这不只是“能用”，而是“必须用”SAM Audio——全称是 Segment Anything Model for Audio，不是 Meta 那个视觉领域的 SAM（Segment Anything Model）的简单移植&…

2026/7/4 0:00:36 阅读更多

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

6个月前的2025年12月，Boris Cherny 公开宣布自己卸载了 IDE。一时间，Vibe Coding 成了全行业最热的话题。6个月后，当我们回过头来拉一份真实账本，发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/7/4 0:19:55 阅读更多

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

📫 个人主页：深夜coding算法 📣 专栏系列：2026年华为最新OD机试题库详解 🔥 一次订阅，永久解锁 | 持续更新100篇 | 6语言全覆盖文章目录❄️前言：☀️一：题目描述🌙 题目…

2026/7/4 2:01:56 阅读更多

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

2026/7/4 2:01:56 阅读更多

FAE放射组学分析工具：医学影像特征探索的完整解决方案

FAE放射组学分析工具：医学影像特征探索的完整解决方案【免费下载链接】FAE FeAture Explorer 项目地址: https://gitcode.com/gh_mirrors/fae/FAE 你是否曾经面对海量医学影像数据感到无从下手？想要从CT、MRI等影像中提取有价值的定量特征&#…

2026/7/4 0:07:04 阅读更多

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南【免费下载链接】happy-llm 📚 从零开始构建大模型项目地址: https://gitcode.com/GitHub_Trending/ha/happy-llm 还在为大型多模态模型动辄数十亿参数、显存占用高而烦恼&…

2026/7/4 0:19:54 阅读更多

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址…

2026/7/4 0:19:57 阅读更多

相关文章

智能解析技术赋能教育数字化转型：tchMaterial-parser的技术架构与应用实践

nwpu-cram软件项目管理案例：敏捷开发实践指南

Gloom的未来发展路线图：开源GitHub客户端的演进方向

终极炉石传说插件HsMod：三步安装教程与50+实用功能详解

3步优化：解锁Kitty终端在macOS上的GPU加速潜能

如何免费获取9大网盘高速下载权限：完整使用指南

HsMod：基于BepInEx的炉石传说终极增强插件完整指南

纹理缺陷检测：传统滤波与频域分析的高效实践

Touch WX环境搭建教程：从安装到运行的5个简单步骤

Playwright自动化测试实战：从零搭建现代Web测试框架

SSRF漏洞攻防实战：从原理到绕过技巧与防御策略

本地部署SAM Audio音频语义分割模型完整指南

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

FAE放射组学分析工具：医学影像特征探索的完整解决方案

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南