昇腾NPU与GPU天才计划——异构计算的融合艺术

发布时间：2026/5/27 0:23:43

昇腾910系列 NVIDIA GPU混部集群的调度与优化。一、异构集群架构昇腾 NVIDIA 混部集群 ┌─────────────────────────────────────────────┐ │ 统一调度层Kubernetes │ ├──────────────┬──────────────┬───────────────┤ │ 昇腾910B #1 │ 昇腾910B #2 │ A100 #1 │ │ 训练集群 │ 训练集群 │ GPU集群 │ │ 512T算力 │ 512T算力 │ 312T算力 │ ├──────────────┼──────────────┼───────────────┤ │ 昇腾910B #3 │ 昇腾910B #4 │ H100 #1 │ │ 推理集群 │ 推理集群 │ 大模型训练 │ └──────────────┴──────────────┴───────────────┘ classHeterogeneousScheduler:def__init__(self):self.devices{ascend-910b:[],nvidia-a100:[],nvidia-h100:[],}defallocate(self,task_requirements:dict)-str:根据任务分配设备# 昇腾适合的任务ascend_tasks[retrieval,embedding,inference]nvidia_tasks[transformer-training,diffusion]iftask_requirements[type]inascend_tasks:returnself._allocate_ascend(task_requirements)returnself._allocate_nvidia(task_requirements)二、互联互通 NVLink vs HCCS 混合通信 classHybridCommunicator:def__init__(self):self.intra_nodeIntraNodeComm()# NVLink HCCSself.inter_nodeInterNodeComm()# RDMAdefallreduce(self,tensor,group:str):ifgroupintra-ascend:returnself.hccl_allreduce(tensor)elifgroupintra-nvidia:returnself.nccl_allreduce(tensor)returnself.rdma_allreduce(tensor)第98篇昇腾NPU能耗优化——绿色计算的工程实践碳中和背景下昇腾NPU的能耗优化。一、动态电压频率调节 DVFS根据负载动态调整频率和电压 ┌──────────────────────────────────────┐ │ DVFS策略 │ ├──────────────────────────────────────┤ │ 工作负载 │ NPU频率 │ 能耗 │ ├──────────────┼──────────┼──────────┤ │ 峰值训练 │ 910MHz │ 310W │ ├──────────────┼──────────┼──────────┤ │ 标准推理 │ 650MHz │ 180W │ ├──────────────┼──────────┼──────────┤ │ 待机 │ 200MHz │ 45W │ └──────────────┴──────────┴──────────┘ classPowerOptimizer:def__init__(self):self.profiles{performance:{freq:910,voltage:1.0},balanced:{freq:650,voltage:0.85},eco:{freq:200,voltage:0.7},}defapply_profile(self,profile:str):freqself.profiles[profile][freq]subprocess.run([npu-smi,-gi,str(freq)])defauto_adjust(self,utilization:float):ifutilization80:self.apply_profile(performance)elifutilization30:self.apply_profile(balanced)else:self.apply_profile(eco)二、省电模式下的性能# 节能 vs 性能权衡POWER_TRADE ┌──────────────────────────────────────┐ │ 能耗优化效果 │ ├──────────────────┬─────────┬──────────┤ │ 模式 │ 能耗 │ 性能 │ ├──────────────────┼─────────┼──────────┤ │ 性能模式 │ 310W │ 100% │ ├──────────────────┼─────────┼──────────┤ │ 均衡模式 │ 180W │ 85% │ ├──────────────────┼─────────┼──────────┤ │ 节能模式 │ 45W │ 50% │ ├──────────────────┼─────────┼──────────┤ │ 成本节省 │ -85% │ -50% │ └──────────────────┴─────────┴──────────┘ PPF (Performance per Watt): 提升 2.3x 第99篇昇腾NPU多租户管理——云原生AI推理平台云原生环境下昇腾NPU的多租户隔离与调度。一、租户隔离资源隔离层次 1. 计算隔离MIG / MPS 2. 内存隔离Cgroups 3. 网络隔离VPC 4. 配额隔离Quota classMultiTenantManager:def__init__(self):self.tenants{}defcreate_tenant(self,tenant_id:str,quota:dict):创建租户self.tenants[tenant_id]{npu_quota:quota.get(npu,1),memory_quota_gb:quota.get(memory,16),qps_limit:quota.get(qps,100),}defallocate(self,tenant_id:str)-list:分配资源tenantself.tenants[tenant_id]returnself._reserve_npu(tenant[npu_quota])二、QoS保障服务质量保障 classQoSController:def__init__(self):self.rate_limiterRateLimiter()self.priority_schedulerPriorityScheduler()defenforce(self,request):tenant_idrequest.tenant_id# 检查配额ifnotself.rate_limiter.allow(tenant_id):return{error:quota_exceeded}# 优先级调度priorityself.tenants[tenant_id].priorityreturnself.priority_scheduler.enqueue(request,priority)第100篇CANN技术博客系列总结——从入门到专家的学习路径最后一篇总结完整的学习路径。一、系列内容回顾CONTENT_OVERVIEW CANN技术博客100篇完整目录 ┌──────────────────────────────────────────────────────────────┐ │ 基础设施层1-20 │ ├────────────────────────────────────────────────────────────────┤ │ 1-5: CANN架构与环境搭建 │ │ 6-10: 基础算子与开发入门 │ │ 11-15: 调试工具与性能分析 │ │ 16-20: 模型迁移基础 │ ├────────────────────────────────────────────────────────────────┤ │ 开发实战层21-40 │ ├────────────────────────────────────────────────────────────────┤ │ 21-30: 分布式训练与优化 │ │ 31-40: 推理部署与服务化 │ ├────────────────────────────────────────────────────────────────┤ │ 模型专项层41-60 │ ├────────────────────────────────────────────────────────────────┤ │ 41-50: 大模型LLM/ViT/SD部署 │ │ 51-60: 垂直场景OCR/ Speech/Timeseries │ ├────────────────────────────────────────────────────────────────┤ │ 进阶专题层61-80 │ ├────────────────────────────────────────────────────────────────┤ │ 61-70: 性能优化与MLOps │ │ 71-80: 安全、监控、生产实践 │ ├────────────────────────────────────────────────────────────────┤ │ 前沿专题层81-100 │ ├────────────────────────────────────────────────────────────────┤ │ 81-90: Agent/RAG/联邦学习 │ │ 91-100: 异构计算、绿色计算、多租户 │ └────────────────────────────────────────────────────────────────┘ 二、学习路径建议LEARNING_PATH ┌─────────────────────────────────────────────────────────────┐ │ CANN工程师学习路径 │ ├─────────────────────────────────────────────────────────────┤ │ 阶段1入门1-20篇 │ │ ├─ 环境搭建 │ │ ├ Hello World │ │ └─ 基础算子使用 │ │ │ │ 阶段2进阶21-40篇 │ │ ├─ 模型迁移 │ │ ├─ 分布式训练 │ │ └─ 推理优化 │ │ │ │ 阶段3专家41-80篇 │ │ ├─ 大模型部署 │ │ ├─ 性能优化 │ │ └─ 生产实践 │ │ │ │ 阶段4架构81-100 │ │ ├─ AI Agent │ │ ├─ RAG/LLMops │ │ └─ 系统设计 │ └────────────────────────────────────────────────────────────┘ 推荐周期 - 入门2周 - 进阶4周 - 专家6周 - 架构4周总计约4个月成为昇腾NPU专家三、精华内容速查QUICK_REFERENCE 精华速查表 ┌─────────────────────────────────────────────────────────┐ │ 常用命令 │ ├─────────────────────────────────────────────────────────┤ │ 查看NPUnpu-smi │ │ 模型编译atc --modelxxx.onnx │ │ 推理ascendrt/launch_api.py │ │ 性能分析msprof │ ├─────────────────────────────────────────────────────────┤ │ 关键API │ ├─────────────────────────────────────────────────────────┤ │ torch.npu.set_device() │ │ torch.npu.current_device() │ │ tensor.npu() │ │ torch.compile(model, backendinductor) │ ├─────────────────────────────────────────────────────────┤ │ 性能优化口诀 │ ├─────────────────────────────────────────────────────────┤ │ 先FP16再融合 │ │ 批处理要动态 │ │ 量化要W4A16 │ └─────────────────────────────────────────────────────────┘ 四、本系列贡献者CONTRIBUTORS 感谢本系列文章的贡献者 - CANN产品团队技术支持 - 昇腾开发者社区案例贡献 - CSDN编辑团队发布支持本系列文章已获得 - 100w 阅读 - 5000 收藏 - 200 社区问答需要哪个

终极Android ROM解包工具链：10+格式支持与跨平台ROM工具实战解析

终极Android ROM解包工具链：10格式支持与跨平台ROM工具实战解析【免费下载链接】unpackandroidrom 爬虫解包 Android ROM 项目地址: https://gitcode.com/gh_mirrors/un/unpackandroidrom 在Android系统定制与逆向工程领域，ROM解包是每个开发者必…

2026/5/27 0:21:20 阅读更多

从零构建MATLAB GUI手写板：集成CNN模型实现实时数字识别

1. 从零开始搭建MATLAB手写板GUI 第一次用MATLAB做图形界面时，我被它强大的GUI设计能力惊艳到了。相比其他编程语言动辄几十行的界面代码，MATLAB的GUIDE工具让拖拽式设计变得异常简单。我们先从最基础的界面搭建说起。打开MATLAB后，在命令窗…

2026/5/27 0:20:19 阅读更多

基于深度嵌入聚类与序列自编码的无监督日志异常检测方案LogDEC

1. 项目概述在复杂的IT系统里，日志就像是系统的“黑匣子”和“心电图”，它忠实地记录着每一次心跳、每一次呼吸，也记录着每一次“心律失常”。想象一下，一个大型金融机构的核心交易系统，每天产生TB级的日志&#xff0c…

2026/5/27 0:20:19 阅读更多

毫米波Class-C VCO设计：利用反馈路径嵌入变容管突破调谐范围限制

1. 项目概述：毫米波Class-C VCO的调谐范围挑战与创新在毫米波射频前端芯片的设计中，电压控制振荡器（VCO）扮演着“心脏”的角色，它产生的本振信号质量直接决定了整个收发信机的性能上限。无论是5G通信、卫星链路还是未来…

2026/5/27 1:16:12 阅读更多

动态目标跨镜无缝接力追踪技术——移民局出入境证件查验辅助场景中的空间智能应用白皮书

动态目标跨镜无缝接力追踪技术 ——移民局出入境证件查验辅助场景中的空间智能应用白皮书随着国际人员流动规模持续增长，口岸出入境管理体系正在从传统“通道式查验”模式，逐步向全过程动态感知与实时空间联动体系演进。尤其在大型国际机场、陆路口岸…

2026/5/27 1:15:12 阅读更多

ABAP：对外发布Web Service

SAP 发布Web Service ，参考了大佬的文章：https://blog.csdn.net/Li958172829/article/details/140065795 一、发布Web Service 定义好RFC 执行RFC，正常运行将RFC设置成远程RFC 更多->实用程序->更多实用程序->创建Web服务创建成…

2026/5/27 1:15:12 阅读更多

从酒鬼掉崖到推荐系统：用Python模拟Random Walk算法，理解PageRank的数学基础

从酒鬼掉崖到推荐系统：用Python模拟Random Walk算法，理解PageRank的数学基础深夜的酒吧里，一个踉跄的酒鬼摇摇晃晃地走向悬崖边缘——这个看似荒诞的场景，竟隐藏着推荐系统和搜索引擎排名的核心数学原理。当我们用Python代码模拟酒…

2026/5/27 1:14:11 阅读更多

端侧推理配方：鸿蒙系统上的模型部署与优化

前言端侧AI推理正在成为移动与嵌入式场景的主流范式。随着模型压缩技术的成熟与专用推理芯片的普及，越来越多的AI能力得以从云端下沉至终端设备。在这一趋势中，HarmonyOS（鸿蒙系统）凭借其分布式架构与全栈优化能力，为…

2026/5/27 1:14:11 阅读更多

5. 【穷举-作业-编程题-3】求阿姆斯特朗数

【问题描述】求1000以内的阿姆斯特朗数。阿姆斯特朗数即水仙花数的推广，n位数各位数字的n次方之和等于本身。【输入形式】【输出形式】 print(num, end" ") 【样例输入】【样例输出】【样例说明】【评分标准】 for num in range(1, 1000):s str(nu…

2026/5/27 1:12:10 阅读更多

LVGL绘制平滑曲线避坑指南：为什么你的贝塞尔函数有毛刺？

LVGL绘制平滑曲线避坑指南：为什么你的贝塞尔函数有毛刺？ 在嵌入式GUI开发中，贝塞尔曲线是实现流畅动画和优雅界面的核心工具。但许多开发者在使用LVGL绘制曲线时，总会遇到令人头疼的锯齿和毛刺问题。这背后隐藏着嵌入式设备特有的…

2026/5/27 0:00:16 阅读更多

告别手动输入！用Burpsuite插件captcha-killer-modified+ddddocr，5分钟搞定登录爆破验证码

自动化验证码识别实战：Burpsuite与ddddocr的高效联动方案验证码机制作为现代Web应用的基础安全防线，其对抗自动化攻击的能力直接影响系统安全性。但在安全测试领域，验证码往往成为效率瓶颈——传统手工识别方式让渗透测试人员每天浪费数小时在…

2026/5/27 0:00:36 阅读更多

中国AI岗位暴涨12倍，13种你没听过的AI岗位

2026年，中国AI岗位数量同比增长12倍，AI科学家月薪高达13.7万，高性能计算工程师出现“7个岗位抢1个人”的荒诞场面。与此同时，数据录入、基础财务分析、一线客服等岗位大幅下降。全球范围内，AI/ML岗位招聘量同比增长88%…

2026/5/27 0:03:59 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/26 2:55:24 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/26 2:55:26 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/26 1:30:55 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/26 19:57:06 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/26 15:11:34 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/26 11:18:30 阅读更多

相关文章