CANN/sip asdMul复数矩阵乘积算子

发布时间：2026/6/29 9:52:19

asdMul【免费下载链接】sip本项目是CANN提供的一款高效、可靠的高性能信号处理算子加速库基于华为Ascend AI处理器专门为信号处理领域而设计。项目地址: https://gitcode.com/cann/sip产品支持情况产品是否支持Atlas 200I/500 A2 推理产品×Atlas 推理系列产品×Atlas 训练系列产品×Atlas A3 训练系列产品/Atlas A3 推理系列产品√Atlas A2 训练系列产品/Atlas A2 推理系列产品√Ascend 950PR/Ascend 950DT×功能说明接口功能支持向量逐元素乘积(Hadamard)能力返回一个和输入同样形状大小的复数矩阵。计算公式$$ resultA \odot\ B (A){ij}(B){ij} $$示例输入“A”为[ [ 11i, 11i ],[ 22i, 22i ] ]输入“B”为[ [ 11i, 11i ],[ 22i, 22i ] ]调用asdMul算子后输出“result”为[ [ 02i, 02i ],[ 08i, 08i ] ]函数原型AspbStatus asdMul( int n, const void * x, const void * y, const void * z, void * stream, void * workspace nullptr)asdMul参数说明参数名输入/输出描述nint输入表示输入的元素个数。xvoid *输入表示输入的矩阵对应公式中的A。数据类型支持COMPLEX32、COMPLEX64数据格式支持ND。shape为[n]yvoid *输入表示输入的矩阵对应公式中的B。数据类型支持COMPLEX32、COMPLEX64数据格式支持ND。shape为[n]zvoid *输出表示输出的矩阵对应公式中的result。数据类型支持COMPLEX32、COMPLEX64数据格式支持ND。shape为[n]streamvoid *输入npu执行流。workspacevoid *输入asdMul算子所需要的workspace。返回值返回状态码具体参见SiP返回码。约束说明输入的元素个数n理论支持[19.22e18]。调用示例示例代码如下该样例旨在提供快速上手、开发和调试算子的最小化实现其核心目标是使用最精简的代码展示算子的核心功能而非提供生产级的安全保障。不推荐用户直接将示例代码作为业务代码若用户将示例代码应用在自身的真实业务场景中且发生了安全问题则需用户自行承担。mul_complex32#include iostream #include vector #include complex #include asdsip.h #include acl/acl.h #include acl_meta.h using namespace AsdSip; #define ASD_STATUS_CHECK(err) \ do { \ AsdSip::AspbStatus err_ (err); \ if (err_ ! AsdSip::ErrorType::ACL_SUCCESS) { \ std::cout Execute failed. std::endl; \ exit(-1); \ } \ } while (0) #define CHECK_RET(cond, return_expr) \ do { \ if (!(cond)) { \ return_expr; \ } \ } while (0) #define LOG_PRINT(message, ...) \ do { \ printf(message, ##__VA_ARGS__); \ } while (0) int64_t GetShapeSize(const std::vectorint64_t shape) { int64_t shapeSize 1; for (auto i : shape) { shapeSize * i; } return shapeSize; } int Init(int32_t deviceId, aclrtStream *stream) { // 固定写法acl初始化 auto ret aclInit(nullptr); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclInit failed. ERROR: %d\n, ret); return ret); ret aclrtSetDevice(deviceId); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtSetDevice failed. ERROR: %d\n, ret); return ret); ret aclrtCreateStream(stream); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtCreateStream failed. ERROR: %d\n, ret); return ret); return 0; } template typename T int CreateAclTensor(const std::vectorT hostData, const std::vectorint64_t shape, void **deviceAddr, aclDataType dataType, aclTensor **tensor) { auto size GetShapeSize(shape) * sizeof(T); // 调用aclrtMalloc申请device侧内存 auto ret aclrtMalloc(deviceAddr, size, ACL_MEM_MALLOC_HUGE_FIRST); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtMalloc failed. ERROR: %d\n, ret); return ret); // 调用aclrtMemcpy将host侧数据复制到device侧内存上 ret aclrtMemcpy(*deviceAddr, size, hostData.data(), size, ACL_MEMCPY_HOST_TO_DEVICE); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtMemcpy failed. ERROR: %d\n, ret); return ret); // 计算连续tensor的strides std::vectorint64_t strides(shape.size(), 1); for (int64_t i shape.size() - 2; i 0; i--) { strides[i] shape[i 1] * strides[i 1]; } // 调用aclCreateTensor接口创建aclTensor *tensor aclCreateTensor(shape.data(), shape.size(), dataType, strides.data(), 0, aclFormat::ACL_FORMAT_ND, shape.data(), shape.size(), *deviceAddr); return 0; } void printTensor(const std::complexop::fp16_t *tensorData, int64_t nums) { for (int64_t i 0; i nums; i) { std::cout ( (float)tensorData[i].real() , (float)tensorData[i].imag() ) ; } std::cout std::endl; } int main(int argc, char **argv) { int deviceId 0; aclrtStream stream; auto ret Init(deviceId, stream); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(Init acl failed. ERROR: %d\n, ret); return ret); int64_t n 8; int64_t vecSize n; std::vectorstd::complexop::fp16_t tensorInXData; std::vectorstd::complexop::fp16_t tensorInYData; tensorInXData.reserve(vecSize); tensorInYData.reserve(vecSize); for (int64_t i 0; i vecSize; i) { tensorInXData.push_back({(op::fp16_t)(9.0f i), (op::fp16_t)(100.0f i)}); } for (int64_t i 0; i vecSize; i) { tensorInYData.push_back({(op::fp16_t)(22.0f i), (op::fp16_t)(33.0f * (i 1))}); } std::vectorstd::complexop::fp16_t tensorOutZData( vecSize, {(op::fp16_t)0.0f, (op::fp16_t)0.0f}); std::cout ------- input X ------- std::endl; printTensor(tensorInXData.data(), vecSize); std::cout ------- input Y ------- std::endl; printTensor(tensorInYData.data(), vecSize); std::vectorint64_t xShape {vecSize}; std::vectorint64_t yShape {vecSize}; std::vectorint64_t zShape {vecSize}; aclTensor *inputX nullptr; aclTensor *inputY nullptr; aclTensor *outputZ nullptr; void *inputXDeviceAddr nullptr; void *inputYDeviceAddr nullptr; void *outputZDeviceAddr nullptr; ret CreateAclTensor(tensorInXData, xShape, inputXDeviceAddr, aclDataType::ACL_COMPLEX32, inputX); CHECK_RET(ret ::ACL_SUCCESS, return ret); ret CreateAclTensor(tensorInYData, yShape, inputYDeviceAddr, aclDataType::ACL_COMPLEX32, inputY); CHECK_RET(ret ::ACL_SUCCESS, return ret); ret CreateAclTensor(tensorOutZData, zShape, outputZDeviceAddr, aclDataType::ACL_COMPLEX32, outputZ); CHECK_RET(ret ::ACL_SUCCESS, return ret); ASD_STATUS_CHECK(asdMul(n, inputX, inputY, outputZ, stream)); ret aclrtSynchronizeStream(stream); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtSynchronizeStream failed. ERROR: %d\n, ret); return ret); ret aclrtMemcpy(tensorOutZData.data(), vecSize * sizeof(std::complexop::fp16_t), outputZDeviceAddr, vecSize * sizeof(std::complexop::fp16_t), ACL_MEMCPY_DEVICE_TO_HOST); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(copy z from device to host failed. ERROR: %d\n, ret); return ret); std::cout ------- output Z ------- std::endl; printTensor(tensorOutZData.data(), vecSize); std::cout Execute successfully. std::endl; aclDestroyTensor(inputX); aclDestroyTensor(inputY); aclDestroyTensor(outputZ); aclrtFree(inputXDeviceAddr); aclrtFree(inputYDeviceAddr); aclrtFree(outputZDeviceAddr); aclrtDestroyStream(stream); aclrtResetDevice(deviceId); aclFinalize(); return 0; }mul_complex64#include iostream #include vector #include complex #include asdsip.h #include acl/acl.h #include acl_meta.h using namespace AsdSip; #define ASD_STATUS_CHECK(err) \ do { \ AsdSip::AspbStatus err_ (err); \ if (err_ ! AsdSip::ErrorType::ACL_SUCCESS) { \ std::cout Execute failed. std::endl; \ exit(-1); \ } \ } while (0) #define CHECK_RET(cond, return_expr) \ do { \ if (!(cond)) { \ return_expr; \ } \ } while (0) #define LOG_PRINT(message, ...) \ do { \ printf(message, ##__VA_ARGS__); \ } while (0) int64_t GetShapeSize(const std::vectorint64_t shape) { int64_t shapeSize 1; for (auto i : shape) { shapeSize * i; } return shapeSize; } int Init(int32_t deviceId, aclrtStream *stream) { // 固定写法acl初始化 auto ret aclInit(nullptr); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclInit failed. ERROR: %d\n, ret); return ret); ret aclrtSetDevice(deviceId); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtSetDevice failed. ERROR: %d\n, ret); return ret); ret aclrtCreateStream(stream); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtCreateStream failed. ERROR: %d\n, ret); return ret); return 0; } template typename T int CreateAclTensor(const std::vectorT hostData, const std::vectorint64_t shape, void **deviceAddr, aclDataType dataType, aclTensor **tensor) { auto size GetShapeSize(shape) * sizeof(T); // 调用aclrtMalloc申请device侧内存 auto ret aclrtMalloc(deviceAddr, size, ACL_MEM_MALLOC_HUGE_FIRST); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtMalloc failed. ERROR: %d\n, ret); return ret); // 调用aclrtMemcpy将host侧数据复制到device侧内存上 ret aclrtMemcpy(*deviceAddr, size, hostData.data(), size, ACL_MEMCPY_HOST_TO_DEVICE); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtMemcpy failed. ERROR: %d\n, ret); return ret); // 计算连续tensor的strides std::vectorint64_t strides(shape.size(), 1); for (int64_t i shape.size() - 2; i 0; i--) { strides[i] shape[i 1] * strides[i 1]; } // 调用aclCreateTensor接口创建aclTensor *tensor aclCreateTensor(shape.data(), shape.size(), dataType, strides.data(), 0, aclFormat::ACL_FORMAT_ND, shape.data(), shape.size(), *deviceAddr); return 0; } void printTensor(const std::complexfloat *tensorData, int64_t nums) { for (int64_t i 0; i nums; i) { std::cout tensorData[i] ; } std::cout std::endl; } int main(int argc, char **argv) { int deviceId 0; aclrtStream stream; auto ret Init(deviceId, stream); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(Init acl failed. ERROR: %d\n, ret); return ret); int64_t n 8; int64_t vecSize n; std::vectorstd::complexfloat tensorInXData; std::vectorstd::complexfloat tensorInYData; tensorInXData.reserve(vecSize); tensorInYData.reserve(vecSize); for (int64_t i 0; i vecSize; i) { tensorInXData[i] {(float)(1.0 i), (float)(1.0 i)}; } for (int64_t i 0; i vecSize; i) { tensorInYData[i] {(float)(2.0 i), 3.0}; } std::vectorstd::complexfloat tensorOutZData(vecSize, {0.0f, 0.0f}); std::cout ------- input X ------- std::endl; printTensor(tensorInXData.data(), vecSize); std::cout ------- input Y ------- std::endl; printTensor(tensorInYData.data(), vecSize); std::vectorint64_t xShape {vecSize}; std::vectorint64_t yShape {vecSize}; std::vectorint64_t zShape {vecSize}; aclTensor *inputX nullptr; aclTensor *inputY nullptr; aclTensor *outputZ nullptr; void *inputXDeviceAddr nullptr; void *inputYDeviceAddr nullptr; void *outputZDeviceAddr nullptr; ret CreateAclTensor(tensorInXData, xShape, inputXDeviceAddr, aclDataType::ACL_COMPLEX64, inputX); CHECK_RET(ret ::ACL_SUCCESS, return ret); ret CreateAclTensor(tensorInYData, yShape, inputYDeviceAddr, aclDataType::ACL_COMPLEX64, inputY); CHECK_RET(ret ::ACL_SUCCESS, return ret); ret CreateAclTensor(tensorOutZData, zShape, outputZDeviceAddr, aclDataType::ACL_COMPLEX64, outputZ); CHECK_RET(ret ::ACL_SUCCESS, return ret); ASD_STATUS_CHECK(asdMul(n, inputX, inputY, outputZ, stream)); ret aclrtSynchronizeStream(stream); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(aclrtSynchronizeStream failed. ERROR: %d\n, ret); return ret); ret aclrtMemcpy(tensorOutZData.data(), vecSize * sizeof(std::complexfloat), outputZDeviceAddr, vecSize * sizeof(std::complexfloat), ACL_MEMCPY_DEVICE_TO_HOST); CHECK_RET(ret ::ACL_SUCCESS, LOG_PRINT(copy z from device to host failed. ERROR: %d\n, ret); return ret); std::cout ------- Output ------- std::endl; printTensor(tensorOutZData.data(), vecSize); std::cout Execute successfully. std::endl; aclDestroyTensor(inputX); aclDestroyTensor(inputY); aclDestroyTensor(outputZ); aclrtFree(inputXDeviceAddr); aclrtFree(inputYDeviceAddr); aclrtFree(outputZDeviceAddr); aclrtDestroyStream(stream); aclrtResetDevice(deviceId); aclFinalize(); return 0; }【免费下载链接】sip本项目是CANN提供的一款高效、可靠的高性能信号处理算子加速库基于华为Ascend AI处理器专门为信号处理领域而设计。项目地址: https://gitcode.com/cann/sip创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

CANN/catlass基础矩阵乘示例

BasicMatmul Example Readme 【免费下载链接】catlass 本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass 功能说明算子功能：完成基础矩阵乘计算计算公式：…

2026/6/6 9:37:51 阅读更多

CANN/HCCL集合通信库快速入门指南

快速入门【免费下载链接】hccl 集合通信库（Huawei Collective Communication Library，简称HCCL）是基于昇腾AI处理器的高性能集合通信库，为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl …

2026/6/11 3:09:36 阅读更多

告别时序烦恼：用Vivado MIG IP核搞定DDR3读写（附Verilog代码与状态机详解）

FPGA实战：基于Vivado MIG IP核的DDR3高效读写设计在FPGA开发中，DDR3存储器的应用已经成为提升系统性能的关键。但对于初学者来说，直接操作DDR3物理层时序犹如面对一座难以逾越的高山。本文将带你使用Xilinx Vivado的MIG IP核，通…

2026/6/27 11:20:52 阅读更多

Appium并行测试与CI/CD集成实战：构建高效移动自动化测试体系

1. 项目概述：为什么我们需要“高级”的Appium实战？如果你已经用Appium写过一些简单的自动化测试脚本，比如登录、点击几个按钮，那你可能已经感受到了它的便利。但当你面对几十台不同型号的手机、需要每天跑几百个测试用例、并且希望…

2026/6/29 9:51:28 阅读更多

第15天：Copy-on-Write 机制：写时复制的核心原理与性能优化

从"共享笔记"到"按需复制"：揭秘Linux内存管理的高效魔法想象一下，你和同事共同编辑一份重要的项目文档。为了节省时间和空间，你们决定先共享同一份文档，只有当其中一人需要修改内容时，才复制一份副…

2026/6/29 9:51:28 阅读更多

UVa 617 Nonstop Travel

题目描述菲尔上夜班，每天凌晨 2:002:002:00 准时离开公司的停车场。回家的路是一条直路，路上有一个或多个交通信号灯。菲尔一直想知道，给定每个信号灯的位置和周期，是否存在某个速度，使他能够在不因红灯而加速或减速的…

2026/6/29 9:51:03 阅读更多

Python库指南：提升开发效率的10个必备工具

你写下“pip install”，然后按下回车——世界上最强大的开源生态，就这样毫无保留地为你敞开大门了。Python社区每天产出无数优质代码，但真正能让你从“能用”跃迁到“效率大师”的，绝非那几个你早已烂熟于心的库。记住这个残酷的现…

2026/6/29 9:51:00 阅读更多

【ChatGPT高效进阶指南】：20年AI工程师亲授7个被99%用户忽略的核心提示词技巧

更多请点击： https://codechina.net 第一章：ChatGPT高效进阶的底层认知基石真正驾驭ChatGPT，不在于堆砌提示词技巧，而在于理解其本质——它不是搜索引擎，也不是万能推理机，而是一个基于海量文本统计规律的…

2026/6/29 9:50:36 阅读更多

5分钟修复洛雪音乐六音音源：新手友好完整指南 [特殊字符]

5分钟修复洛雪音乐六音音源：新手友好完整指南 🎵 【免费下载链接】New_lxmusic_source 六音音源修复版项目地址: https://gitcode.com/gh_mirrors/ne/New_lxmusic_source 还在为洛雪音乐无法播放歌曲而烦恼吗？六音音源修复版是专门为…

2026/6/29 9:49:49 阅读更多

Java开发者转型安全开发：从代码审计到自动化工具实践

1. 转型背景与核心驱动力最近几年，身边不少做Java后端开发的朋友，都开始或多或少地关注起安全开发这个方向。我自己也是从写了七八年Java业务代码，一步步转向了安全领域，现在主要做代码审计和自动化安全工具开发。这个转变不是一时…

2026/6/29 0:00:05 阅读更多

【TEE从入门到精通及实战】75 TEE内Wasm沙箱的内存安全：从“段错误”到“编译时保证”

75 TEE内Wasm沙箱的内存安全：从“段错误”到“编译时保证” 开篇故事去年夏天，我正帮一家金融科技公司优化他们的TEE内Wasm沙箱。他们的核心业务是在Intel SGX enclave里运行用户提交的Wasm合约，用于实时交易验证。一天下午，运维突然报警：生产环境的enclave进程频繁崩…

2026/6/29 0:00:05 阅读更多

YAML函数动态解析：打造智能接口自动化测试用例

1. 项目概述：为什么YAML测试用例需要函数动态解析？在接口自动化测试的实践中，我们常常会面临一个核心矛盾：测试用例的可维护性与灵活性。早期的测试脚本，无论是用Python的unittest还是pytest，往往将测试数据…

2026/6/29 0:00:05 阅读更多

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

6个月前的2025年12月，Boris Cherny 公开宣布自己卸载了 IDE。一时间，Vibe Coding 成了全行业最热的话题。6个月后，当我们回过头来拉一份真实账本，发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/6/29 0:00:05 阅读更多

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

📫 个人主页：深夜coding算法 📣 专栏系列：2026年华为最新OD机试题库详解 🔥 一次订阅，永久解锁 | 持续更新100篇 | 6语言全覆盖文章目录❄️前言：☀️一：题目描述🌙 题目…

2026/6/29 1:23:10 阅读更多

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

2026/6/29 1:23:10 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/28 12:54:48 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/28 13:30:24 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/28 13:30:22 阅读更多

相关文章

CANN/catlass基础矩阵乘示例

CANN/HCCL集合通信库快速入门指南

告别时序烦恼：用Vivado MIG IP核搞定DDR3读写（附Verilog代码与状态机详解）

Appium并行测试与CI/CD集成实战：构建高效移动自动化测试体系

第15天：Copy-on-Write 机制：写时复制的核心原理与性能优化

UVa 617 Nonstop Travel

Python库指南：提升开发效率的10个必备工具

【ChatGPT高效进阶指南】：20年AI工程师亲授7个被99%用户忽略的核心提示词技巧

5分钟修复洛雪音乐六音音源：新手友好完整指南 [特殊字符]

Java开发者转型安全开发：从代码审计到自动化工具实践

【TEE从入门到精通及实战】75 TEE内Wasm沙箱的内存安全：从“段错误”到“编译时保证”

YAML函数动态解析：打造智能接口自动化测试用例

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因