昇腾CANN开源竞赛，从参赛到获奖的实战攻略

发布时间：2026/5/26 6:18:09

前言昇腾CANN开源社区每年都会办技术竞赛——算子开发赛、模型优化赛、应用创新赛奖金从几千到几万不等。但很多人一听到竞赛就打退堂鼓觉得那是大佬的游戏。实际上昇腾CANN竞赛的门槛没想象中高。掌握Ascend C基础语法、熟悉一两个算子的开发流程就能参赛。关键是搞清楚竞赛的规则、评审标准和常见坑——这些信息散落在社区各个角落cann-competitions仓库把它汇总了。这篇会用最直白的方式把昇腾CANN竞赛的完整参赛路径拆解清楚。竞赛全景昇腾CANN开源竞赛分三个赛道每个赛道的考察重点和难度不同赛道1算子开发赛考察重点用Ascend C写一个高性能算子在NPU上跑出好成绩典型赛题实现一个自定义激活函数算子如SwiGLU优化一个已有算子的性能如FlashAttention的某个变体实现一个NPU原生的信号处理算子难度⭐⭐⭐⭐需要对达芬奇架构有基本理解奖金1-5万元赛道2模型优化赛考察重点用CANN工具链优化一个模型的推理性能典型赛题用ATB加速LLM推理降低首token延迟用AMCT量化模型在精度损失1%的前提下提升吞吐用GE图优化减少算子数量难度⭐⭐⭐不需要写算子但要懂CANN工具链奖金1-3万元赛道3应用创新赛考察重点基于昇腾NPU做一个创新应用典型赛题用昇腾NPU做实时视频分析安防/交通用昇腾NPU做边缘推理工业检测/农业用昇腾NPU做行业解决方案金融/医疗难度⭐⭐门槛最低创意和完整性最重要奖金0.5-2万元参赛全流程注册 → 选赛道 → 开发 → 提交PR → CI检查 → 评审 → 颁奖第一步注册在昇腾CANN开源社区注册账号签署CLA贡献者许可协议# Fork竞赛仓库到自己的账号gitclone https://atomgit.com/your-username/cann-competitions.gitcdcann-competitions# 创建参赛目录mkdir-psubmissions/year/track/team-name第二步开发以算子开发赛为例用Ascend C实现一个自定义算子。以下是往届获奖作品的核心代码结构// swiglu_kernel.cpp - Ascend C实现的SwiGLU算子// SwiGLU(x) x * sigmoid(1.702 * x)是LLaMA等大模型的激活函数#includekernel_operator.hclassSwiGLUKernel{public:__aicore__SwiGLUKernel(){}__aicore__voidInit(GM_ADDR x,GM_ADDR y,uint32_ttotalLength){// 分配GPU/NPU上的bufferxGm.SetGlobalBuffer((__gm__ half*)x,totalLength);yGm.SetGlobalBuffer((__gm__ half*)y,totalLength);// 把输入从Global Memory搬到Local Memory更快pipe.InitBuffer(inQueueX,1,totalLength*sizeof(half));pipe.InitBuffer(outQueueY,1,totalLength*sizeof(half));this-totalLengthtotalLength;}__aicore__voidProcess(){// 1. 从Global Memory搬数据到Local MemoryCopyIn();// 2. 在Local Memory上做计算SwiGLU x * sigmoid(1.702x)Compute();// 3. 把结果从Local Memory搬回Global MemoryCopyOut();}private:__aicore__voidCopyIn(){// 从Global Memory读输入LocalTensorhalfxLocalinQueueX.AllocTensorhalf();DataCopy(xLocal,xGm,totalLength);inQueueX.EnQue(xLocal);}__aicore__voidCompute(){LocalTensorhalfxLocalinQueueX.DeQuehalf();LocalTensorhalfyLocaloutQueueY.AllocTensorhalf();// SwiGLU核心计算y x * sigmoid(1.702 * x)// 先算 1.702 * xLocalTensorhalfscaledxLocal;// 复用bufferMuls(scaled,xLocal,(half)1.702,totalLength);// 再算 sigmoid(1.702x)Sigmoid(yLocal,scaled,totalLength);// 最后 x * sigmoidMul(yLocal,xLocal,yLocal,totalLength);outQueueY.EnQuehalf(yLocal);inQueueX.FreeTensor(xLocal);}__aicore__voidCopyOut(){LocalTensorhalfyLocaloutQueueY.DeQuehalf();DataCopy(yGm,yLocal,totalLength);outQueueY.FreeTensor(yLocal);}private:TPipe pipe;TQueQuePosition::VECIN,1inQueueX;TQueQuePosition::VECOUT,1outQueueY;GlobalTensorhalfxGm,yGm;uint32_ttotalLength;};// 算子入口函数externC__global__ __aicore__voidswiglu_kernel(GM_ADDR x,GM_ADDR y,GM_ADDR workspace,GM_ADDR tiling){SwiGLUKernel op;op.Init(x,y,1024);// 1024个元素op.Process();}代码讲解这是Ascend C的典型算子结构——Init/Process三段式。核心在Compute()函数先用Muls做标量乘法1.702×x再用Sigmoid做激活最后用Mul做逐元素乘法。整个过程在Local Memory类似GPU的Shared Memory上执行比在Global Memory上快10倍以上。DataCopy负责Global↔Local的数据搬运是达芬奇架构的DMA操作。第三步提交PR# 1. 写好算子代码和测试脚本# 目录结构# submissions/2026/operator/team-abc/# ├── swiglu_kernel.cpp # 算子实现# ├── swiglu_build.sh # 编译脚本# ├── test_swiglu.py # 测试脚本# └── README.md # 说明文档# 2. 提交到自己的Forkgitadd.gitcommit-s-mfeat(operator): add SwiGLU kernel for Ascend C Implement SwiGLU activation function using Ascend C. Performance: 1024 elements in 0.02ms, 3.2x faster than PyTorch. Signed-off-by: Your Name youremail.comgitpush origin main# 3. 在AtomGit上创建Pull Request# 标题格式[竞赛年份-赛道] 团队名 - 算子/项目名称# 示例[2026-Operator] Team ABC - SwiGLU Kernel代码讲解git commit -s的-s参数会自动加上Signed-off-by行这是开源社区的DCODeveloper Certificate of Origin要求声明你有权提交这个代码。commit message遵循Conventional Commits格式type(scope): description。第四步CI检查提交PR后CI机器人会自动做以下检查# CI检查项自动执行1. DCO签名检查 → commit必须有Signed-off-by2. CLA签署检查 → 提交者必须签署贡献者协议3. 代码格式检查 → clang-format / black4. 编译检查 → Ascend C代码能否通过编译5. 测试执行 → 运行test_swiglu.py对比精度和性能任何一项失败CI会在PR评论区打❌需要修复后重新push。第五步评审CI通过后评审委员会按以下维度打分算子开发赛维度权重说明功能正确性30%输出精度vs基准FP32 PyTorch的误差性能30%在NPU上的执行时间代码质量20%可读性、注释、规范创新性10%是否有独特的优化技巧文档完整性10%README是否清晰往届获奖作品速览年份赛道获奖作品核心优化2025算子开发FlashAttention V3 Ascend CTiling优化Double Buffer2025模型优化LLaMA-7B INT4量化AMCT量化KV Cache FP82025应用创新NPU实时交通检测多模型级联ATB加速踩坑实录坑1未签CLAPR被自动关闭现象提交PR后1分钟内被机器人关闭评论“Please sign the CLA first.”原因昇腾CANN社区要求所有贡献者签署CLAContributor License Agreement未签署的PR会被自动拦截。解决先在AtomGit上签署CLA再提交PR。# 签署CLA# 访问 https://atomgit.com/cann/cann-agreements# 点击Sign CLA按钮用AtomGit账号授权# 签署后重新提交gitcommit--amend-s# 确保有Signed-off-bygitpush-forigin main坑2commit message格式不规范CI失败现象CI报错Invalid commit message format。原因commit message必须遵循Conventional Commits格式如feat(scope): description。解决修改commit message。# 错误gitcommit-madd swiglu kernel# 没有type和scope# 正确gitcommit-s-mfeat(operator): add SwiGLU kernel implementation坑3测试脚本没有性能基准评审被扣分现象功能正确但性能分数低因为测试脚本只验证了精度没有对比PyTorch基准性能。原因评审需要看到你的算子比PyTorch快多少没有基准数据无法评分。解决在测试脚本中加入性能对比。# 测试脚本要包含性能对比importtimeimporttorch# PyTorch基准xtorch.randn(1,4096).npu()torch.npu.synchronize()t0time.time()for_inrange(100):yx*torch.sigmoid(1.702*x)# PyTorch SwiGLUtorch.npu.synchronize()pytorch_time(time.time()-t0)/100# Ascend C算子torch.npu.synchronize()t0time.time()for_inrange(100):yswiglu_custom(x)# 自定义算子torch.npu.synchronize()custom_time(time.time()-t0)/100print(fPyTorch:{pytorch_time*1000:.3f}ms)print(fAscend C:{custom_time*1000:.3f}ms)print(f加速比:{pytorch_time/custom_time:.1f}x)结尾cann-competitions是昇腾CANN开源竞赛的管理仓库涵盖算子开发赛、模型优化赛、应用创新赛三个赛道从注册到评审的完整流程都有规范指导。如果想参与昇腾CANN竞赛建议从应用创新赛入门门槛最低再挑战模型优化赛和算子开发赛。关键是签CLA、commit格式规范、测试脚本要有性能对比数据。昇腾CANN的开源生态还在持续壮大。如果在参赛过程中遇到啥问题欢迎去AtomGit上的昇腾CANN开源社区逛逛里面有一手资料和活跃社区。社区链接https://atomgit.com/cann/cann-competitions

昇腾CANN社区治理：一个PR从提交到合并的全过程

前言昇腾CANN在AtomGit上开源了55个仓库，代码贡献者来自华为内部、高校、企业。这么多人在同一个项目里写代码，如果没有治理规范，仓库很快就会乱掉——commit message五花八门、代码风格不统一、未签协议的代码混入。 community和cann-agree…

2026/5/26 6:18:09 阅读更多

告别多模型集成噩梦：DMXAPI如何用“改两行配置”统一调用DeepSeek、豆包等大模型

在现代软件开发中，API（应用程序接口）的标准化程度直接影响着研发效率。对于AI应用开发者而言，一个令人头疼的现实是：不同大模型厂商提供的API往往风格迥异——请求格式不同、鉴权方式不同、返回数据结构不同、流式传输…

2026/5/26 6:18:09 阅读更多

金融企业如何搭建处理复杂合规流程的AI Agent？基于TARS大模型与实在Agent的生产力实践

站在2026年5月的节点回望，金融行业的数字化转型已从“系统自动化”全面跨越至“智能体原生”阶段。面对海量且高频的信贷审批、跨境交易审核及合规监测，传统的规则引擎与碎片化RPA脚本已难以应对日益复杂的监管环境。金融机构急需一种具备自主感知、逻…

2026/5/26 6:17:29 阅读更多

Sora 2导出GIF模糊/卡顿/黑边？92%用户忽略的3个FFmpeg参数配置（附实测对比数据表）

更多请点击： https://codechina.net 第一章：Sora 2 GIF导出问题的典型现象与根本归因常见异常表现用户在使用 Sora 2 导出 GIF 时，常遭遇三类典型失败：生成文件为空（0 KB）、输出帧率严重失真&#xff0…

2026/5/26 7:02:12 阅读更多

CPO 赋能 “3+AI” 战略：国产 CIS 龙头思特威的技术进阶与全球化之路

CPO 赋能 “3AI” 战略：国产 CIS 龙头思特威的技术进阶与全球化之路 CPO（共封装光学）与高速光互连技术，是连接端侧感知与云端算力的关键桥梁，正成为半导体产业技术升级的核心方向。作为国产 CIS 龙头，思特威…

2026/5/26 7:02:12 阅读更多

2026 智能停车场解决方案对比工程商实用选型攻略

市场上智能停车场品牌众多，作为采购负责人或工程商，到底该如何选出真正适合自己项目的最优解？盲目比价只会掉入陷阱。本文分享一套业内工程商和资深采购都在使用的实战对比方法论，照着步骤走，你也能成为半个专家&…

2026/5/26 7:02:12 阅读更多

树莓派零代码实现物理开关机：设备树覆盖与MOS管电路详解

1. 项目概述：为你的树莓派打造一个“物理关机键”玩树莓派的朋友，估计都经历过这个场景：想关机了，要么得SSH进去敲命令，要么得接上显示器鼠标去点菜单。最原始的，就是直接拔电源——这绝对是坏习惯&#xf…

2026/5/26 7:01:31 阅读更多

Unity不拉伸进度条：RawImage+Mask解耦方案

1. 这不是“加个Mask就完事”的进度条，而是UI缩放逻辑的底层博弈在Unity UI开发中，我见过太多人把“用Mask做不拉伸进度条”当成一个随手可查的API调用题——搜到几个教程，拖个Image组件，挂个Mask脚本，改下Fill Amount…

2026/5/26 6:59:50 阅读更多

HybridCLR：Unity全平台C#热更新的原生级完整解决方案

1. 这不是又一个“热更新方案”，而是Unity项目生命周期的拐点HybridCLR不是插件，不是SDK，更不是某种“临时补丁”。它是Unity热更新领域里第一个真正意义上把C#代码的编译、加载、执行、调试、版本管理全链路拉回到原生语义层面的基础设施。我…

2026/5/26 6:59:50 阅读更多

Claude Code Skill动态发现机制全解析：为什么你的AI会自动执行代码

文章目录前言一、那个让我怀疑AI成精的自动commit事件二、静态注入：Claude偷偷给模型塞的小纸条三、Skill工具：模型自己给自己发指令的自导自演四、动态注入：Skill集合变了怎么办？五、语义匹配注入：当Skill多到烧不起t…

2026/5/26 0:00:17 阅读更多

ssm高校普法系统（10101）

有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码SQL脚本）配套文档（LWPPT开题报告/任务书）远程调试控屏包运行一键启动项目&…

2026/5/26 0:01:18 阅读更多

强化学习策略参数调节方法及值迭代算法实现 CS188 Proj3 学习笔记

强烈推荐的更好的阅读体验 Q1.Value Iteration 第一个问题是最基础的值迭代实现，这个问题没有什么难度，主要就是一边看着公式一遍敲代码复现。可以先回顾一下Note8中的Value Iteration框架.唯一唯一需要注意的就是需要使用的是batch版本，而…

2026/5/26 0:01:39 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/26 2:55:24 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/26 2:55:26 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/26 1:30:55 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/25 15:34:05 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/25 15:07:25 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/25 11:05:00 阅读更多

相关文章

昇腾CANN社区治理：一个PR从提交到合并的全过程

告别多模型集成噩梦：DMXAPI如何用“改两行配置”统一调用DeepSeek、豆包等大模型

金融企业如何搭建处理复杂合规流程的AI Agent？基于TARS大模型与实在Agent的生产力实践

Sora 2导出GIF模糊/卡顿/黑边？92%用户忽略的3个FFmpeg参数配置（附实测对比数据表）

CPO 赋能 “3+AI” 战略：国产 CIS 龙头思特威的技术进阶与全球化之路

2026 智能停车场解决方案对比 工程商实用选型攻略

树莓派零代码实现物理开关机：设备树覆盖与MOS管电路详解

Unity不拉伸进度条：RawImage+Mask解耦方案

HybridCLR：Unity全平台C#热更新的原生级完整解决方案

Claude Code Skill动态发现机制全解析：为什么你的AI会自动执行代码

ssm高校普法系统（10101）

强化学习策略参数调节方法及值迭代算法实现 CS188 Proj3 学习笔记

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

2026 智能停车场解决方案对比工程商实用选型攻略