CANN/asc-devkit C API通用说明

发布时间：2026/5/21 16:04:32

通用说明和约束【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit通用地址对齐约束AI Core上的存储单元用于存储矢量计算、矩阵计算的源操作数和目的操作数各类存储单元的对齐要求如表1所示因此C API操作数的起始地址对齐要求应与这些存储单元的对齐要求保持一致。需要注意的是如果接口中已明确说明操作数起始地址对齐要求则以具体API中的说明为准。表 1不同存储单元的对齐要求 |存储单元|对齐要求| |----------|----------| |Global Memory|无对齐要求。| |Unified Buffer|32Byte对齐。| |L1 Buffer|32Byte对齐。| |L0A Buffer/L0B Buffer|512Byte对齐。| |L0C Buffer|64Byte对齐。| |BiasTable Buffer|64Byte对齐。| |Fixpipe Buffer|64Byte对齐。|通用地址重叠约束使用高维切分计算接口时为了节省地址空间开发者可以申请一块内存供源操作数与目的操作数同时使用即地址重叠。使用时需要注意以下约束单次迭代内源操作数与目的操作数必须100%完全重叠不支持部分重叠。多次迭代间不支持前序迭代的目的操作数与后序迭代的源操作数重叠。例如第N次迭代的目的操作数是第N1次的源操作数如下图所示。在这种情况下第N次迭代可能会改写覆盖源操作数的数值导致无法得到预期结果。特别地对于部分双目计算类的APIasc_addasc_subasc_mul等当数据类型为half、int32_t、float时支持前序迭代的目的操作数与后序迭代的源操作数重叠仅针对目的操作数和第二个源操作数重叠的情况且src1RepStride或者dstRepStride必须为0。图 1地址重叠示例不支持[!NOTE]说明本节所述地址重叠通用约束适用于一般情况API参考中如有额外特殊说明的则以具体API中的说明为准。 API中没有描述地址重叠约束的视为不支持高维切分计算的地址重叠地址重叠时计算结果可能不满足预期。如何使用高维切分计算API[!NOTE]说明本章节对矢量计算API中的高维切分计算接口做解释说明。下文中的repeatTime、dataBlockStride、repeatStride为通用描述其命名不一定与具体指令中的参数命名完全对应。比如单次迭代内不同DataBlock间地址步长dataBlockStride参数在单目API中对应为dst_block_stridesrc_block_stride参数在双目API中对应为dst_block_stridesrc0_block_stridesrc1_block_stride参数。您可以在具体接口的参数说明中找到参数含义的描述。dataBlockStride、repeatStride参数的单位默认为DataBlock32Byte。API中有特殊说明的以API中的说明为准。使用高维切分计算API可充分发挥硬件优势支持开发者控制指令的迭代执行和操作数的地址间隔功能更加灵活。矢量计算通过Vector计算单元完成矢量计算的源操作数和目的操作数均通过Unified BufferUB来进行存储。Vector计算单元每个迭代会从UB中取出8个DataBlock每个DataBlock数据块内部地址连续长度32Byte进行计算并写入对应的8个DataBlock中。下图为单次迭代内的8个DataBlock进行Exp计算的示意图。图1单次迭代内的8个DataBlock进行Exp计算示意图矢量计算API支持开发者通过repeatTime来配置迭代次数从而控制指令的多次迭代执行。假设repeatTime设置为2矢量计算单元会进行2个迭代的计算可计算出2 * 8每个迭代8个DataBlock * 32Byte每个DataBlock 32Byte 512Byte的结果。如果数据类型为half则计算了256个元素。下图展示了2次迭代Exp计算的示意图。由于硬件限制repeatTime不能超过255。图22次迭代Exp计算针对同一个迭代中的数据可以通过mask参数进行掩码操作来控制实际参与计算的个数。下图为进行Abs计算时通过mask逐比特模式按位控制哪些元素参与计算的示意图1表示参与计算0表示不参与计算。图3通过mask参数进行掩码操作示意图以float数据类型为例矢量计算单元还支持带间隔的向量计算通过dataBlockStride单次迭代内不同DataBlock间地址步长和repeatStride相邻迭代间相同DataBlock的地址步长来进行配置。dataBlockStride如果需要控制单次迭代内数据处理的步长可以通过设置同一迭代内不同DataBlock的地址步长dataBlockStride来实现。下图给出了单次迭代内非连续场景的示意图示例中源操作数的dataBlockStride配置为2表示单次迭代内不同DataBlock间地址步长起始地址之间的间隔为2个DataBlock。图4单次迭代内非连续场景的示意图repeatStride 当repeatTime大于1需要多次迭代完成矢量计算时您可以根据不同的使用场景合理设置相邻迭代间相同DataBlock的地址步长repeatStride的值。下图给出了多次迭代间非连续场景的示意图示例中源操作数和目的操作数的repeatStride均配置为9表示相邻迭代间相同DataBlock起始地址之间的间隔为9个DataBlock。相同DataBlock是指DataBlock在迭代内的位置相同比如下图中的src1和src9处于相邻迭代在迭代内都是第一个DataBlock的位置其间隔即为repeatStride的数值。图5多次迭代间非连续场景的示意图下文中给出了dataBlockStride、repeatStride、mask的详细配置说明和示例。dataBlockStridedataBlockStride是指同一迭代内不同DataBlock的地址步长。连续计算dataBlockStride设置为1对同一迭代内的8个DataBlock数据连续进行处理。非连续计算dataBlockStride值大于1如取2同一迭代内不同DataBlock之间在读取数据时出现一个DataBlock的间隔如下图所示。图6dataBlockStride不同取值举例repeatStriderepeatStride是指相邻迭代间相同DataBlock的地址步长。连续计算场景假设定义一个Tensor供目的操作数和源操作数同时使用即地址重叠repeatStride取值为8。此时矢量计算单元第一次迭代读取连续8个DataBlock第二轮迭代读取下一个连续的8个DataBlock通过多次迭代即可完成所有输入数据的计算。非连续计算场景repeatStride取值大于8如取10时则相邻迭代间矢量计算单元读取的数据在地址上不连续出现2个DataBlock的间隔。反复计算场景repeatStride取值为0时矢量计算单元会对首个连续的8个DataBlock进行反复读取和计算。部分重复计算repeatStride取值大于0且小于8时相邻迭代间部分数据会被矢量计算单元重复读取和计算此种情形一般场景不涉及。掩码操作mask用于控制每次迭代内参与计算的元素。可以按位控制哪些元素参与计算bit位的值为1表示参与计算0表示不参与。 mask实际取值范围和操作数的数据类型有关。当操作数为16位时mask包含2个uint64_t数据mask0、mask1∈[0, 2^64-1]并且不同时为0当操作数为32位时mask包含1个uint64_t数据mask0∈(0, 2^64-1]当操作数为64位时mask包含1个uint64_t数据mask0∈(0, 2^32-1]。具体样例如下:// 数据类型为int16_t uint64_t mask[2] {6148914691236517205, 6148914691236517205}; // repeatTime 1, 共128个元素单次迭代能处理128个元素故repeatTime 1。 // dst_block_stride, src0_block_stride, src1_block_stride 1, 单次迭代内连续读取和写入数据。 // dst_repeat_stride, src0_repeat_stride, src1_repeat_stride 8, 迭代间的数据连续读取和写入。 asc_set_vector_mask(mask[1], mask[0]); asc_add(dstLocal, src0Local, src1Local, 1, 1, 1, 1, 8, 8, 8);结果示例如下输入数据(src0Local): [1 2 3 ... 64 ...127 128] 输入数据(src1Local): [1 2 3 ... 64 ...127 128] 输出数据(dstLocal): [2 undefined 6 ... undefined ...254 undefined]mask过程如下mask{6148914691236517205, 6148914691236517205}注6148914691236517205表示64位二进制数0b010101....01mask按照低位到高位的顺序排布// 数据类型为int32_t uint64_t mask[1] {6148914691236517205}; // repeatTime 1, 共64个元素单次迭代能处理64个元素故repeatTime 1。 // dst_block_stride, src0_block_stride, src1_block_stride 1, 单次迭代内连续读取和写入数据。 // dst_repeat_stride, src0_repeat_stride, src1_repeat_stride 8, 迭代间的数据连续读取和写入。 asc_set_vector_mask(0, mask[0]); asc_add(dst, src0, src1, 1, 1, 1, 1, 8, 8, 8);结果示例如下输入数据(src0): [1 2 3 ... 63 64] 输入数据(src1): [1 2 3 ... 63 64] 输出数据(dst): [2 undefined 6 ... 126 undefined]mask过程如下mask{6148914691236517205, 0}注6148914691236517205表示64位二进制数0b010101....01以数组方式申请内存编译器支持以数组方式申请内存。但需注意以下约束当前仅支持Atlas A3 训练系列产品/Atlas A3 推理系列产品和Atlas A2 训练系列产品/Atlas A2 推理系列产品产品。数组方式的申请方式和asc_get_phy_buf_addr API接口不能混用。否则可能导致地址重叠。不支持多维数组和嵌套的数组。封装到数据结构中时不支持隐式构造。不支持动态数组。基本使用方式如下// 数组长度必须为编译期常量。 constexpr uint32_t src_len 1024; constexpr uint32_t dst_len 128; // 方式1直接使用。 __ubuf__ float src[src_len]; __ubuf__ float dst[dst_len]; // 方式2封装到结构体中使用。 struct UbBuff { float src[src_len]; float dst[dst_len]; } __ubuf__ UbBuff buff{}; // 必须加{}不支持隐式构造。 // 不支持的场景举例 __ubuf__ UbBuff buff[32]; // 不支持数组嵌套UbBuff中也存在数组。 __ubuf__ float buff[src_len][dst_len]; // 不支持多维数组。 __ubuf__ float buff[result_len]; // 不支持动态数组。result_len为前置操作的计算结果。 // 不支持两种地址申请方式混用。下面的写法获取的src0和src1的起始位置相同 __ubuf__ float* src0 (__ubuf__ float*)asc_get_phy_buf_addr(0); __ubuf__ float src1[src_len];【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

GetQzonehistory终极指南：3分钟实现QQ空间历史数据完整备份

GetQzonehistory终极指南：3分钟实现QQ空间历史数据完整备份【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 你是否曾担心那些记录青春点滴的QQ空间说说会随时间消失&#xf…

2026/5/21 16:04:32 阅读更多

5个实用技巧：用Ladybug高效分析天气数据

5个实用技巧：用Ladybug高效分析天气数据【免费下载链接】ladybug 🐞 Core ladybug library for weather data analysis and visualization 项目地址: https://gitcode.com/gh_mirrors/lad/ladybug Ladybug是一个功能强大的Python库，专…

2026/5/21 16:03:49 阅读更多

Real-ESRGAN终极指南：5分钟掌握AI图像超分辨率技术，让模糊照片秒变高清

Real-ESRGAN终极指南：5分钟掌握AI图像超分辨率技术，让模糊照片秒变高清【免费下载链接】Real-ESRGAN Real-ESRGAN aims at developing Practical Algorithms for General Image/Video Restoration. 项目地址: https://gitcode.com/gh_mirrors/re/Real…

2026/5/21 16:03:07 阅读更多

终极指南：如何在iPhone上使用iTorrent实现专业级种子下载

终极指南：如何在iPhone上使用iTorrent实现专业级种子下载【免费下载链接】iTorrent Torrent client for iOS 16 项目地址: https://gitcode.com/gh_mirrors/it/iTorrent 还在为iOS设备无法直接下载种子文件而烦恼吗？iTorrent这款专为iOS 16设计的…

2026/5/21 19:16:23 阅读更多

Pixelle-Video终极指南：5分钟掌握AI短视频制作全流程

Pixelle-Video终极指南：5分钟掌握AI短视频制作全流程【免费下载链接】Pixelle-Video 🚀 AI 全自动短视频引擎 | AI Fully Automated Short Video Engine 项目地址: https://gitcode.com/GitHub_Trending/pi/Pixelle-Video 想象一下，只…

2026/5/21 19:16:23 阅读更多

Cortex-Debug架构深度解析：ARM Cortex-M微控制器调试性能优化300%的技术实现方案

Cortex-Debug架构深度解析：ARM Cortex-M微控制器调试性能优化300%的技术实现方案【免费下载链接】cortex-debug Visual Studio Code extension for enhancing debug capabilities for Cortex-M Microcontrollers 项目地址: https://gitcode.com/gh_mirrors/co/co…

2026/5/21 19:16:23 阅读更多

异常检测Anomalib库使用说明

一整体概览Anomalib 是由 Intel OpenVINO 团队开源的深度学习异常检测库，提供从数据加载、模型训练、推理到可视化的完整流水线。覆盖图像、视频、3D点云等多种模态的异常检测，内置25种SOTA异常检测算法。整体代码结构如下:主要使用了以下技术栈&#x…

2026/5/21 19:16:03 阅读更多

利用 QiWe API 实现企业微信机器人消息双向交互

1. 什么是企微机器人的“多模态”交互？ 早期的微信机器人大多只能处理简单的纯文本对话。然而，在真实的商业客服场景中，客户往往会发送商品图片、发票PDF文件、产品操作视频甚至是语音消息。一个合格的企业级机器人，必须具备处理和…

2026/5/21 19:15:22 阅读更多

520，选ROG NUC 2026，把最好的爱送给自己，也送给TA！

520，爱要大声说出来！今天是520，一个属于爱的日子！有人忙着表白，有人忙着宠爱自己。不管你是哪一种，ROG NUC 2026 都是足够硬核的礼物选择！爱自己，就给自己最好的！爱TA&am…

2026/5/21 19:14:21 阅读更多

别只刷固件了！用MissionPlanner搞定四旋翼‘飘移’问题，校准compass_mot全流程

四旋翼飞行品质优化：MissionPlanner高级校准实战指南当你的四旋翼无人机已经能够稳定起飞，却在定高模式下出现难以解释的飘移现象时，这往往意味着需要进入更深层次的飞控调校阶段。许多飞手在完成基础校准后便止步不前，殊不知电机…

2026/5/21 0:00:23 阅读更多

科研学术篇---论文搜索方法

高效搜集和研读论文，是构建扎实知识体系的基石。要想做到“高效”与“高质”并重，需要把整个过程当作一个闭环系统来优化——从目标锁定、来源筛选、检索策略，到快速粗筛、深度内化、持续追踪，每一步都有对应的工具和心法。下面逐…

2026/5/21 0:01:25 阅读更多

YOLOv11城市道路摩托车与自行车目标检测数据集-1569张-motorcycle-1_2

YOLOv11城市道路摩托车与自行车目标检测数据集 📊 数据集基本信息目标类别： [‘bike’, ‘motorcycle’]中文类别：[‘自行车’, ‘摩托车’]训练集：1374 张验证集：130 张测试集：65 张总计：1569…

2026/5/21 0:03:28 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/21 8:30:37 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/21 16:37:36 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/21 2:29:29 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/21 8:30:37 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/21 5:00:59 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/21 1:50:14 阅读更多

相关文章

GetQzonehistory终极指南：3分钟实现QQ空间历史数据完整备份

5个实用技巧：用Ladybug高效分析天气数据

Real-ESRGAN终极指南：5分钟掌握AI图像超分辨率技术，让模糊照片秒变高清

终极指南：如何在iPhone上使用iTorrent实现专业级种子下载

Pixelle-Video终极指南：5分钟掌握AI短视频制作全流程

Cortex-Debug架构深度解析：ARM Cortex-M微控制器调试性能优化300%的技术实现方案

异常检测Anomalib库使用说明

利用 QiWe API 实现企业微信机器人消息双向交互

520，选ROG NUC 2026，把最好的爱送给自己，也送给TA！

别只刷固件了！用MissionPlanner搞定四旋翼‘飘移’问题，校准compass_mot全流程

科研学术篇---论文搜索方法

YOLOv11城市道路摩托车与自行车目标检测数据集-1569张-motorcycle-1_2

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

py每日spider案例之某website之xin东方选课搜索接口(难度一般 扣取代码即可)

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)