CANN/asc-devkit SIMD基础算术示例

发布时间：2026/5/20 12:58:30

更多样例【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit通过tensor高维切分计算接口中的mask连续模式实现数据非连续计算。uint64_t mask 64; // 每个迭代内只计算前64个数 AscendC::Add(dstLocal, src0Local, src1Local, mask, 4, { 1, 1, 1, 8, 8, 8 });结果示例如下输入数据src0Local[1 2 3 ... 512] 输入数据src1Local[513 514 515 ... 1024] 输出数据dstLocal [514 516 518 ... 640 undefined ... undefined 770 772 774 ... 896 undefined ... undefined 1026 1028 1030 ... 1152 undefined ... undefined 1282 1284 1286 ... 1408 undefined ... undefined]通过tensor高维切分计算接口中的mask逐比特模式实现数据非连续计算。uint64_t mask[2] { UINT64_MAX, 0 }; // mask[0]满mask[1]空每次只计算前64个数 AscendC::Add(dstLocal, src0Local, src1Local, mask, 4, { 1, 1, 1, 8, 8, 8 });结果示例如下输入数据src0Local[1 2 3 ... 512] 输入数据src1Local[513 514 515 ... 1024] 输出数据dstLocal [514 516 518 ... 640 undefined ... undefined 770 772 774 ... 896 undefined ... undefined 1026 1028 1030 ... 1152 undefined ... undefined 1282 1284 1286 ... 1408 undefined ... undefined]通过控制tensor高维切分计算接口的Repeat Stride参数实现数据非连续计算。uint64_t mask 128; // repeatTime设置为2表示一共需要进行2次迭代 // src0BlkStride, src1BlkStride设置为1表示每个迭代内src0参与计算的数据地址间隔为1个DataBlock // src0RepStride设置为16, 表示相邻迭代之间src0起始地址间隔为16个datablock AscendC::Add(dstLocal, src0Local, src1Local, mask, 2, { 1, 1, 1, 8, 16, 8 });结果示例如下输入数据src0Local[1 2 3 ... 512] 输入数据src1Local[513 514 515 ... 1024] 输出数据dstLocal [514 516 518 ...768 898 900 902 ... 1150 1152 undefined ... undefined]通过控制tensor高维切分计算接口的DataBlock Stride和Repeat Stride参数实现数据非连续计算。uint64_t mask 128; // repeatTime设置为2表示一共需要进行2次迭代 // src0BlkStride设置为2表示每个迭代内src0参与计算的数据地址间隔为2个datablock // src0RepStride设置为16, 表示相邻迭代之间src0起始地址间隔为16个datablock AscendC::Add(dstLocal, src0Local, src1Local, mask, 2, { 1, 2, 1, 8, 16, 8 });结果示例如下输入数据src0Local[1 2 3 ... 512] 输入数据src1Local[513 514 515 ... 1024] 输出数据dstLocal [514 516 518 ... 544 562 564 566 ... 592 610 612 614 ... 640 658 660 662 ... 688 706 708 710 ... 736 754 756 758 ... 784 802 804 806 ... 832 850 852 854 ... 880 898 900 902 ... 928 946 948 950 ... 976 994 996 998 ... 1024 1042 1044 1046 ... 1072 1090 1092 1094 ... 1120 1138 1140 1142 ... 1168 1186 1188 1190 ... 1216 1234 1236 1238 … 1264 undefined ... undefined]需要传入标量参数的API使用样例。#include kernel_operator.h constexpr int32_t BUFFER_NUM 2; class KernelBinaryScalar { public: __aicore__ inline KernelBinaryScalar() {} __aicore__ inline void Init(GM_ADDR x, GM_ADDR z, float scalar, uint32_t totalLength, uint32_t tileNum) { this-blockLength totalLength / AscendC::GetBlockNum(); this-scalar scalar; this-tileNum tileNum; ASSERT(tileNum ! 0 tile num can not be zero!); this-tileLength this-blockLength / tileNum / BUFFER_NUM; xGm.SetGlobalBuffer((__gm__ DTYPE_X*)x this-blockLength * AscendC::GetBlockIdx(), this-blockLength); zGm.SetGlobalBuffer((__gm__ DTYPE_Z*)z this-blockLength * AscendC::GetBlockIdx(), this-blockLength); pipe.InitBuffer(inQueueX, BUFFER_NUM, this-tileLength * sizeof(DTYPE_X)); pipe.InitBuffer(outQueueZ, BUFFER_NUM, this-tileLength * sizeof(DTYPE_Z)); } __aicore__ inline void Process() { int32_t loopCount this-tileNum * BUFFER_NUM; for (int32_t i 0; i loopCount; i) { CopyIn(i); Compute(i); CopyOut(i); } } private: __aicore__ inline void CopyIn(int32_t progress) { AscendC::LocalTensorDTYPE_X xLocal inQueueX.AllocTensorDTYPE_X(); AscendC::DataCopy(xLocal, xGm[progress * this-tileLength], this-tileLength); inQueueX.EnQue(xLocal); } __aicore__ inline void Compute(int32_t progress) { AscendC::LocalTensorDTYPE_X xLocal inQueueX.DeQueDTYPE_X(); AscendC::LocalTensorDTYPE_Z zLocal outQueueZ.AllocTensorDTYPE_Z(); AscendC::Adds(zLocal, xLocal, (DTYPE_X)scalar, this-tileLength); outQueueZ.EnQueDTYPE_Z(zLocal); inQueueX.FreeTensor(xLocal); } __aicore__ inline void CopyOut(int32_t progress) { AscendC::LocalTensorDTYPE_Z zLocal outQueueZ.DeQueDTYPE_Z(); AscendC::DataCopy(zGm[progress * this-tileLength], zLocal, this-tileLength); outQueueZ.FreeTensor(zLocal); } private: AscendC::TPipe pipe; AscendC::TQueAscendC::TPosition::VECIN, BUFFER_NUM inQueueX; AscendC::TQueAscendC::TPosition::VECOUT, BUFFER_NUM outQueueZ; AscendC::GlobalTensorDTYPE_X xGm; AscendC::GlobalTensorDTYPE_Z zGm; float scalar; uint32_t blockLength; uint32_t tileNum; uint32_t tileLength; }; extern C __global__ __aicore__ void binary_scalar_simple_kernel(GM_ADDR x, GM_ADDR z, GM_ADDR workspace, GM_ADDR tiling) { GET_TILING_DATA(tilingData, tiling); KernelBinaryScalar op; op.Init(x, z, tilingData.scalar, tilingData.totalLength, tilingData.tileNum); if (TILING_KEY_IS(1)) { op.Process(); } }【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

长期使用Taotoken聚合端点对开发效率的实际提升

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度长期使用Taotoken聚合端点对开发效率的实际提升 1. 从多平台管理到单一入口的转变在接触Taotoken之前，我的日常工作流…

2026/5/20 12:58:10 阅读更多

Chalk.ist快速入门：5分钟学会制作专业代码图片

Chalk.ist快速入门：5分钟学会制作专业代码图片【免费下载链接】chalk.ist 📷 Create beautiful images of your source code 项目地址: https://gitcode.com/gh_mirrors/ch/chalk.ist Chalk.ist是一款简单高效的代码图片生成工具，能帮…

2026/5/20 12:57:49 阅读更多

cann/hcomm：HcommWriteOnThread线程写入函数

HcommWriteOnThread 【免费下载链接】hcomm HCOMM（Huawei Communication）是HCCL的通信基础库，提供通信域以及通信资源的管理能力。项目地址: https://gitcode.com/cann/hcomm 产品支持情况 Ascend 950PR/Ascend 950DT：支…

2026/5/20 12:57:29 阅读更多

SCCB接口：从协议解析到FPGA IP核的实战设计

1. SCCB接口基础解析第一次接触SCCB接口时，我也被它和I2C的相似性搞糊涂了。记得当时调试OV7725摄像头模组，拿着示波器抓波形抓了半天才发现应答位的差异。SCCB全称Serial Camera Control Bus，是OmniVision专门为摄像头传感器设计的控制总线…

2026/5/20 13:50:23 阅读更多

STM32F108C8T6小白入门特训营1.7GPIO推挽输出（Push-Pull）讲解_开漏输出（Open-Drain)讲解

目录 GPIO推挽输出（Push-Pull）讲解简单入门推挽输出开漏输出 cubemx 具体配置 keil软件具体配置 B站同步视频连接 GPIO推挽输出（Push-Pull）讲解 https://www.bilibili.com/video/BV1th411z7sn?spm_id_from333.788…

2026/5/20 13:50:23 阅读更多

Proteus与Keil联调实战：从零搭建智能温控仿真系统

1. 环境准备与工具安装第一次接触Proteus和Keil联调时，我花了大半天时间在环境配置上。现在回想起来，其实只要按步骤操作，半小时就能搞定所有准备工作。先说说必备的软件清单：Proteus 8.9以上版本、Keil MDK-ARM（记得…

2026/5/20 13:49:40 阅读更多

【Perplexity作家信息搜索实战指南】：3步精准定位全球顶尖创作者的隐藏数据源

更多请点击： https://intelliparadigm.com 第一章：【Perplexity作家信息搜索实战指南】：3步精准定位全球顶尖创作者的隐藏数据源 Perplexity AI 不仅是问答引擎，更是深度挖掘创作者背景与知识图谱的智能探针。其“Writer Search”…

2026/5/20 13:49:18 阅读更多

突破性能瓶颈：3步解锁华硕笔记本90%隐藏潜力的开源控制工具

突破性能瓶颈：3步解锁华硕笔记本90%隐藏潜力的开源控制工具【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops with nearly the same functionality. Works with ROG Zephyrus, Flow, TUF, Strix, Scar, ProArt, Vivobook, Zenboo…

2026/5/20 13:48:19 阅读更多

【NoC片上网络 On-Chip Network】拓扑选型指南：从指标解析到场景适配

1. NoC拓扑选型：芯片设计者的必修课第一次接触NoC（片上网络）拓扑选型时，我完全被各种专业术语淹没了。Mesh、Torus、Fat Tree...这些名词听起来就像天书。直到参与了一个实际芯片项目后，我才真正理解拓扑结构对系统性…

2026/5/20 13:47:58 阅读更多

顶伯在线语音工具背后的技术力量：AI语音合成与深度学习解析

顶伯在线语音工具背后的技术力量在人工智能浪潮中，语音交互正成为人机沟通的核心方式。顶伯作为行业领先的在线语音工具，凭借自主研发的深度学习架构，将文字转化为高度自然的语音，广泛应用于有声阅读、智能客服、教育辅助等领域。…

2026/5/20 0:00:25 阅读更多

全志V3s开发板实战：用Buildroot 2020.02.4定制你的第一个最小Linux文件系统

全志V3s开发板实战：用Buildroot 2020.02.4定制最小Linux文件系统在嵌入式开发领域，构建一个精简高效的Linux文件系统往往是项目成功的关键第一步。全志V3s作为一款高性价比的ARM Cortex-A7芯片，搭配Buildroot这一经典构建工具，能…

2026/5/20 0:00:25 阅读更多

百考通：AI赋能期刊论文写作，智能生成优质内容

在学术研究领域，期刊论文的撰写是成果输出的关键环节，却也让众多科研工作者与学生倍感压力：选题迷茫、逻辑梳理困难、格式规范复杂、内容提炼耗时，严重拖慢了学术成果的发表节奏。百考通（https://www.baikaotongai.com…

2026/5/20 0:00:46 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/20 5:14:40 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/19 6:17:20 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/20 2:02:06 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/20 5:46:58 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/20 3:00:53 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/19 22:33:20 阅读更多

相关文章