CANN ops-nn PReLU算子

发布时间：2026/6/8 4:40:33

aclnnPrelu【免费下载链接】ops-nn本项目是CANN提供的神经网络类计算算子库实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-nn产品支持情况产品是否支持Atlas A2 训练系列产品/Atlas A2 推理系列产品√功能说明算子功能计算输入张量的 PReLU 值。当输入元素大于 0 时输出该元素本身当输入元素小于等于 0 时输出该元素与weight的乘积。计算公式$$ y_i \begin{cases} x_i, x_i 0 \ x_i \times weight, x_i \le 0 \end{cases} $$其中weight可以为标量也可以为通道维权重。输入self维度大于 1 时通道维为第 1 维输入self维度不大于 1 时通道数按 1 处理。函数原型每个算子分为两段式接口必须先调用“aclnnPreluGetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器再调用“aclnnPrelu”接口执行计算。aclnnStatus aclnnPreluGetWorkspaceSize( const aclTensor *self, const aclTensor *weight, aclTensor *out, uint64_t *workspaceSize, aclOpExecutor **executor)aclnnStatus aclnnPrelu( void* workspace, uint64_t workspaceSize, aclOpExecutor* executor, aclrtStream stream)aclnnPreluGetWorkspaceSize参数说明参数名输入/输出描述使用说明数据类型数据格式维度(shape)非连续Tensorself输入待进行 Prelu 计算的输入张量公式中的 x。支持空Tensor。shape需要与out一致。FLOAT、FLOAT16、BFLOAT16ND0-8√weight输入Prelu 负半轴权重。支持空Tensor。元素个数为1或者元素个数与self输入的channels一致。self.shape为1维及以下时channels 1self.shape大于1维时channels self.shape[1]。FLOAT、FLOAT16、BFLOAT16ND0-8√out输出Prelu 计算后的输出张量公式中的 y。数据类型、shape需要与self一致。FLOAT、FLOAT16、BFLOAT16ND0-8√workspaceSize输出返回需要在Device侧申请的workspace大小。-----executor输出返回op执行器包含了算子计算流程。-----返回值aclnnStatus返回状态码具体参见aclnn返回码。第一段接口会完成入参校验出现以下场景时报错返回码错误码描述ACLNN_ERR_PARAM_NULLPTR161001传入的self、weight或out是空指针。ACLNN_ERR_PARAM_INVALID161002self、weight或out的数据类型和数据格式不在支持的范围之内。self、weight和out的数据类型不一致。self和out shape不一致。weight元素个数既不是1也不等于self的通道数。aclnnPrelu参数说明参数名输入/输出描述workspace输入在Device侧申请的workspace内存地址。workspaceSize输入在Device侧申请的workspace大小由第一段接口aclnnPreluGetWorkspaceSize获取。executor输入op执行器包含了算子计算流程。stream输入指定执行任务的Stream。返回值aclnnStatus返回状态码具体参见aclnn返回码。约束说明self、weight、out的数据类型需要一致。out的shape必须与self完全一致。weight的元素个数必须为1或与self的通道数一致。调用示例示例代码如下仅供参考具体编译和执行过程请参考编译与运行样例。#include iostream #include vector #include acl/acl.h #include aclnnop/aclnn_prelu.h #define CHECK_RET(cond, return_expr) \ do { \ if (!(cond)) { \ return_expr; \ } \ } while (0) #define LOG_PRINT(message, ...) \ do { \ printf(message, ##__VA_ARGS__); \ } while (0) int64_t GetShapeSize(const std::vectorint64_t shape) { int64_t shapeSize 1; for (auto i : shape) { shapeSize * i; } return shapeSize; } int Init(int32_t deviceId, aclrtStream* stream) { auto ret aclInit(nullptr); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclInit failed. ERROR: %d\n, ret); return ret); ret aclrtSetDevice(deviceId); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclrtSetDevice failed. ERROR: %d\n, ret); return ret); ret aclrtCreateStream(stream); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclrtCreateStream failed. ERROR: %d\n, ret); return ret); return 0; } template typename T int CreateAclTensor(const std::vectorT hostData, const std::vectorint64_t shape, void** deviceAddr, aclDataType dataType, aclTensor** tensor) { auto size GetShapeSize(shape) * sizeof(T); auto ret aclrtMalloc(deviceAddr, size, ACL_MEM_MALLOC_HUGE_FIRST); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclrtMalloc failed. ERROR: %d\n, ret); return ret); ret aclrtMemcpy(*deviceAddr, size, hostData.data(), size, ACL_MEMCPY_HOST_TO_DEVICE); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclrtMemcpy failed. ERROR: %d\n, ret); return ret); std::vectorint64_t strides(shape.size(), 1); for (int64_t i shape.size() - 2; i 0; i--) { strides[i] shape[i 1] * strides[i 1]; } *tensor aclCreateTensor(shape.data(), shape.size(), dataType, strides.data(), 0, aclFormat::ACL_FORMAT_ND, shape.data(), shape.size(), *deviceAddr); return 0; } int main() { int32_t deviceId 0; aclrtStream stream; auto ret Init(deviceId, stream); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(Init acl failed. ERROR: %d\n, ret); return ret); std::vectorint64_t selfShape {2, 4}; std::vectorint64_t weightShape {1}; std::vectorint64_t outShape {2, 4}; void* selfDeviceAddr nullptr; void* weightDeviceAddr nullptr; void* outDeviceAddr nullptr; aclTensor* self nullptr; aclTensor* weight nullptr; aclTensor* out nullptr; std::vectorfloat selfHostData {-2, 1, 2, -3, -4.7, 5.3, -6.9, 7}; std::vectorfloat weightHostData {3}; std::vectorfloat outHostData {0, 0, 0, 0, 0, 0, 0, 0}; ret CreateAclTensor(selfHostData, selfShape, selfDeviceAddr, aclDataType::ACL_FLOAT, self); CHECK_RET(ret ACL_SUCCESS, return ret); ret CreateAclTensor(weightHostData, weightShape, weightDeviceAddr, aclDataType::ACL_FLOAT, weight); CHECK_RET(ret ACL_SUCCESS, return ret); ret CreateAclTensor(outHostData, outShape, outDeviceAddr, aclDataType::ACL_FLOAT, out); CHECK_RET(ret ACL_SUCCESS, return ret); uint64_t workspaceSize 0; aclOpExecutor* executor; ret aclnnPreluGetWorkspaceSize(self, weight, out, workspaceSize, executor); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclnnPreluGetWorkspaceSize failed. ERROR: %d\n, ret); return ret); void* workspaceAddr nullptr; if (workspaceSize 0) { ret aclrtMalloc(workspaceAddr, workspaceSize, ACL_MEM_MALLOC_HUGE_FIRST); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(allocate workspace failed. ERROR: %d\n, ret); return ret); } ret aclnnPrelu(workspaceAddr, workspaceSize, executor, stream); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclnnPrelu failed. ERROR: %d\n, ret); return ret); ret aclrtSynchronizeStream(stream); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclrtSynchronizeStream failed. ERROR: %d\n, ret); return ret); auto size GetShapeSize(outShape); std::vectorfloat resultData(size, 0); ret aclrtMemcpy(resultData.data(), resultData.size() * sizeof(resultData[0]), outDeviceAddr, size * sizeof(resultData[0]), ACL_MEMCPY_DEVICE_TO_HOST); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(copy resultData from device to host failed. ERROR: %d\n, ret); return ret); aclDestroyTensor(self); aclDestroyTensor(weight); aclDestroyTensor(out); aclrtFree(outDeviceAddr); aclrtFree(weightDeviceAddr); aclrtFree(selfDeviceAddr); if (workspaceSize 0) { aclrtFree(workspaceAddr); } aclrtDestroyStream(stream); aclrtResetDevice(deviceId); aclFinalize(); return 0; }【免费下载链接】ops-nn本项目是CANN提供的神经网络类计算算子库实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-nn创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

Open Design与Claude Design对比分析：开源方案的优势与挑战

Open Design与Claude Design对比分析：开源方案的优势与挑战【免费下载链接】open-design 🎨 Local-first, open-source Claude Design alternative. 🖥️ Native desktop app. ⚡ 259 Skills ✨ 142 Design Systems 🖼️ Web d…

2026/6/8 4:39:53 阅读更多

Triton+Kubernetes模型服务化实战：高并发AI推理生产部署指南

1. 项目概述：当模型走出Jupyter，真正开始呼吸真实世界的空气“From Notebook to Production: Running ML in the Real World (Part 4)”——这个标题本身就像一句暗号，专为那些在Jupyter里调通了模型、画出了漂亮ROC曲线、却在部署时被现实狠…

2026/6/8 4:38:32 阅读更多

告别枯燥配置！用ESP32和LVGL给你的IoT项目做个酷炫音乐播放器UI（附ST7789小屏适配指南）

用ESP32和LVGL打造极简音乐播放器UI：从ST7789适配到界面重构实战当你在狭小的1.14寸屏幕上看到专辑封面流畅滑动、频谱实时跳动的瞬间，会突然理解为什么LVGL能成为嵌入式GUI开发的标杆。这不是简单的"Hello World"式移植，而是一场关…

2026/6/8 4:37:11 阅读更多

免费获取全国高铁数据的终极指南：Parse12306三步法解析

免费获取全国高铁数据的终极指南：Parse12306三步法解析【免费下载链接】Parse12306 分析12306 获取全国列车数据项目地址: https://gitcode.com/gh_mirrors/pa/Parse12306 还在为找不到完整的高铁数据而烦恼吗？Parse12306是一个简单高效的C#开源…

2026/6/8 5:53:23 阅读更多

Beyond Compare同步文件时，忽略时间戳到底有啥影响？一个案例讲清楚

Beyond Compare同步文件时忽略时间戳的实战影响与解决方案当开发团队在测试环境部署代码，或是运维人员执行关键数据备份时，文件同步工具的可靠性直接决定了工作效率与数据安全。Beyond Compare作为业界标杆级的文件对比工具，其时间戳处理机制…

2026/6/8 5:53:03 阅读更多

别再只懂四舍五入了！Java BigDecimal的8种舍入模式，金融计算选错就亏大了

金融级精度：Java BigDecimal舍入模式实战指南在金融交易系统中，0.01元的误差可能导致数百万资金的账务不平；在电商促销时，舍入规则的差异会让平台与商家陷入无止境的对账纠纷。当大多数开发者还在使用HALF_UP进行简单的四舍五入时…

2026/6/8 5:51:42 阅读更多

手把手图解：当Ceph集群一个节点挂了，你的4+2纠删码数据是怎么被读出来的？

手把手图解：当Ceph集群一个节点挂了，你的42纠删码数据是怎么被读出来的？凌晨三点，运维工程师小李的手机突然响起刺耳的告警声——监控系统显示Ceph集群中某个节点失去响应。他一个激灵从床上弹起来，却发现业务系统依然…

2026/6/8 5:51:22 阅读更多

eNSP实验保存与复用技巧：以这个HCIA小型组网为例，教你搭建自己的“实验模板库”

eNSP实验模板化实战：构建可复用的网络实验资产库每次打开eNSP都要从头搭建实验环境？配置过的VLAN参数隔周就忘？这套方法能让你把实验效率提升300%。不同于常规的配置教程，我们将从数字资产管理的维度重构eNSP使用方式，…

2026/6/8 5:51:02 阅读更多

保姆级教程：用PhyPlusKit V2.5.1d给PHY6222开发板烧录第一个程序（附常见问题排查）

PHY6222开发板零基础实战：从开箱到BLE灯控的全流程指南第一次拿到PHY6222开发板时，那些密密麻麻的接口和陌生的术语确实让人望而生畏。作为一款性价比极高的BLE开发平台，PHY6222在物联网和穿戴设备领域有着广泛应用，但很多初学者往…

2026/6/8 5:50:22 阅读更多

解决老旧机顶盒资源化难题：Amlogic S9xxx Armbian项目在TY1608设备上的系统适配实现

解决老旧机顶盒资源化难题：Amlogic S9xxx Armbian项目在TY1608设备上的系统适配实现【免费下载链接】amlogic-s9xxx-armbian Supports running Armbian on Amlogic, Allwinner, and Rockchip devices. Support a311d, s922x, s905x3, s905x2, s912, s905d, s905x, …

2026/6/8 0:00:25 阅读更多

Python Scrapy 爬虫实战进阶系列（一）：轻量化数据存储 - 数据精准写入 SQLite 数据库

前言在 Python 爬虫开发领域中，Scrapy 作为高性能、高可扩展性的异步爬虫框架，是行业内采集结构化数据的首选工具。在中小型爬虫项目、本地数据采集、轻量化数据存储场景中，SQLite 无需独立服务、单文件存储、原生兼容 Python 的特性&#…

2026/6/8 0:00:45 阅读更多

3步实现Windows直读Btrfs分区：跨平台文件系统互通终极方案

3步实现Windows直读Btrfs分区：跨平台文件系统互通终极方案【免费下载链接】btrfs WinBtrfs - an open-source btrfs driver for Windows 项目地址: https://gitcode.com/gh_mirrors/bt/btrfs 还在为Windows无法访问Linux Btrfs分区而烦恼吗？你是…

2026/6/8 0:03:08 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/8 0:06:11 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/8 0:06:11 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/8 0:06:11 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/7 9:41:13 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/7 9:41:15 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/7 9:41:13 阅读更多

相关文章

Open Design与Claude Design对比分析：开源方案的优势与挑战

Triton+Kubernetes模型服务化实战：高并发AI推理生产部署指南

告别枯燥配置！用ESP32和LVGL给你的IoT项目做个酷炫音乐播放器UI（附ST7789小屏适配指南）

免费获取全国高铁数据的终极指南：Parse12306三步法解析

Beyond Compare同步文件时，忽略时间戳到底有啥影响？一个案例讲清楚

别再只懂四舍五入了！Java BigDecimal的8种舍入模式，金融计算选错就亏大了

手把手图解：当Ceph集群一个节点挂了，你的4+2纠删码数据是怎么被读出来的？

eNSP实验保存与复用技巧：以这个HCIA小型组网为例，教你搭建自己的“实验模板库”

保姆级教程：用PhyPlusKit V2.5.1d给PHY6222开发板烧录第一个程序（附常见问题排查）

解决老旧机顶盒资源化难题：Amlogic S9xxx Armbian项目在TY1608设备上的系统适配实现

Python Scrapy 爬虫实战进阶系列（一）：轻量化数据存储 - 数据精准写入 SQLite 数据库

3步实现Windows直读Btrfs分区：跨平台文件系统互通终极方案

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因