CANN算子：Conv3D反向滤波

发布时间：2026/5/20 19:10:17

Conv3DBackpropFilter 算子 API 描述【免费下载链接】cann-bench评测AI在处理CANN领域代码任务的能力涵盖算子生成、算子优化等领域支撑模型选型、训练效果评估统一量化评估标准识别Agent能力短板构建CANN领域评测平台推动AI能力在CANN领域的持续演进。项目地址: https://gitcode.com/cann/cann-bench1. 算子简介Conv3D的filter梯度。主要应用场景3D 卷积神经网络训练中的反向传播视频理解模型中 Conv3D 层的权重梯度计算医学影像 3D 分割模型的训练过程算子特征难度等级L3Contraction双输入输入特征图和输出梯度单输出filter 梯度输入 x 为 [N, C_in, D, H, W] 5维张量输入 grad 为 [N, C_out, D_out, H_out, W_out] 5维张量2. 算子定义数学公式$$ y \text{conv3d_filter_grad}(x, \text{grad}, \text{filter_size}) $$计算 Conv3D 操作中卷积核filter的梯度。给定前向传播的输入特征图 $x$ 和来自下游的输出梯度 $\text{grad}$通过反向传播计算得到 filter 的梯度 $y$。输出 shape 计算输出 filter 梯度的 shape 由filter_size参数指定$$ \text{shape}(y) [C_{out}, C_{in}/groups, K_d, K_h, K_w] $$其中 grad 的 spatial 维度需满足$$ D_{out} \frac{D_{in} 2 \cdot \text{pad}_d - \text{dilation}_d \cdot (K_d - 1) - 1}{\text{stride}_d} 1 $$3. 接口规范算子原型cann_bench.conv_3d_backprop_filter(Tensor x, Tensor grad, int[] strides, int[] pads, int[] dilations, int groups, int[] filter_size) - Tensor y输入参数说明参数类型默认值描述xTensor必选输入特征图shape 为 [N, C_in, D, H, W]gradTensor必选输出梯度shape 为 [N, C_out, D_out, H_out, W_out]stridesint[]必选步长3元素 [stride_d, stride_h, stride_w]padsint[]必选填充6元素格式 [D_front, D_back, H_top, H_bottom, W_left, W_right]dilationsint[]必选膨胀率3元素 [dilation_d, dilation_h, dilation_w]groupsint1分组数filter_sizeint[]必选filter的shape [C_out, C_in/groups, K_d, K_h, K_w]输出参数Shapedtype描述y[C_out, C_in/groups, K_d, K_h, K_w]与输入 x 相同filter梯度数据类型输入 (x, grad) dtype输出 dtypefloat16float16bfloat16bfloat16规则与约束x 的 shape 格式为 [N, C_in, D, H, W]grad 的 shape 格式为 [N, C_out, D_out, H_out, W_out]x 和 grad 的 dtype 须一致strides 指定 3D 卷积的步长为 3 元素列表pads 指定填充值为 6 元素列表 [D_front, D_back, H_top, H_bottom, W_left, W_right]dilations 指定膨胀率为 3 元素列表groups 指定分组数C_in 和 C_out 都须能被 groups 整除filter_size 指定输出 filter 梯度的 shapegrad 的 spatial 维度必须与 x、filter_size、strides、pads、dilations 计算的输出维度一致支持范围输入 tensor 各维度与参数的支持范围维度 / 参数范围备注Nbatch1 ~ 16cases.csv 实测 2 ~ 5C_in输入通道1 ~ 256cases.csv 实测 7 ~ 128须能被groups整除C_out输出通道1 ~ 512cases.csv 实测 14 ~ 256须能被groups整除Ddepth4 ~ 32cases.csv 实测 4 ~ 17H,W空间8 ~ 256cases.csv 实测 13 ~ 128K_ddepth 卷积核1 ~ 8cases.csv 实测 1 / 3 / 5K_h,K_w空间卷积核1 ~ 16cases.csv 实测 1 / 3 / 5strides[i]1 ~ 4cases.csv 实测 (1,1,1) 和 (2,2,2)pads[i]0 ~ 8cases.csv 实测 0 ~ 2对称dilations[i]1 ~ 16cases.csv 实测 1 / 2groups1 ~ 64cases.csv 实测 1 / 2 / 64须同时整除C_in和C_out约束grad的 spatial 维度(D_out, H_out, W_out)必须与正向 conv3d 由(x.shape, filter_size, strides, pads, dilations)计算出的输出维度一致见 §2 公式。4. 精度要求采用生态算子精度标准进行验证。误差指标平均相对误差MERE采样点中相对误差平均值$$ \text{MERE} \text{avg}(\frac{\text{abs}(actual - golden)}{\text{abs}(golden)\text{1e-7}}) $$最大相对误差MARE采样点中相对误差最大值$$ \text{MARE} \max(\frac{\text{abs}(actual - golden)}{\text{abs}(golden)\text{1e-7}}) $$通过标准数据类型FLOAT16BFLOAT16FLOAT32HiFLOAT32FLOAT8 E4M3FLOAT8 E5M2通过阈值(Threshold)2^-102^-72^-132^-112^-32^-2当平均相对误差 MERE Threshold最大相对误差 MARE 10 * Threshold 时判定为通过。5. 标准 Golden 代码import torch import torch.nn.functional as F Conv3DBackpropFilter算子Torch Golden参考实现 Conv3D的filter梯度公式: y conv3d_filter_grad(x, grad, filter_size) def conv_3d_backprop_filter( x: torch.Tensor, grad: torch.Tensor, strides: list, pads: list, dilations: list, groups: int 1, filter_size: list None ) - torch.Tensor: Conv3D的filter梯度公式: y conv3d_filter_grad(x, grad, filter_size) Args: x: 输入特征图shape为[N, C_in, D, H, W] grad: 输出梯度shape为[N, C_out, D_out, H_out, W_out] strides: 步长3元素 [stride_d, stride_h, stride_w] pads: 填充6元素 [D_front, D_back, H_top, H_bottom, W_left, W_right]对称时取front/top/left dilations: 膨胀率3元素 [dilation_d, dilation_h, dilation_w] groups: 分组数 filter_size: filter的shape [C_out, C_in/groups, K_d, K_h, K_w] Returns: filter梯度shape与filter_size相同 # pads 是 6 元素格式对称 padding 时取 (D_front, H_top, W_left) # 即 pads[0], pads[2], pads[4] padding (pads[0], pads[2], pads[4]) stride (strides[0], strides[1], strides[2]) dilation (dilations[0], dilations[1], dilations[2]) # 使用 torch.nn.grad.conv3d_weight 计算 filter 梯度 y F.grad.conv3d_weight(x, tuple(filter_size), grad, stridestride, paddingpadding, dilationdilation, groupsgroups) return y6. 额外信息算子调用示例import torch import cann_bench x torch.randn(2, 64, 8, 16, 16, dtypetorch.float16, devicenpu) grad torch.randn(2, 128, 6, 14, 14, dtypetorch.float16, devicenpu) # filter_size: [C_out, C_in/groups, K_d, K_h, K_w] y cann_bench.conv_3d_backprop_filter(x, grad, strides[1, 1, 1], pads[1, 1, 1, 1, 1, 1], dilations[1, 1, 1], groups1, filter_size[128, 64, 3, 3, 3])【免费下载链接】cann-bench评测AI在处理CANN领域代码任务的能力涵盖算子生成、算子优化等领域支撑模型选型、训练效果评估统一量化评估标准识别Agent能力短板构建CANN领域评测平台推动AI能力在CANN领域的持续演进。项目地址: https://gitcode.com/cann/cann-bench创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

5分钟快速上手SignTools：自托管iOS应用签名平台完整教程

5分钟快速上手SignTools：自托管iOS应用签名平台完整教程【免费下载链接】SignTools ✒ A free, self-hosted platform to sideload iOS apps without a computer 项目地址: https://gitcode.com/gh_mirrors/si/SignTools 想要在iOS设备上自由安装第三方应用…

2026/5/20 19:09:37 阅读更多

开发智能客服系统时利用 Taotoken 实现模型降级与容灾路由的策略

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度开发智能客服系统时利用 Taotoken 实现模型降级与容灾路由的策略在构建面向真实用户的智能客服系统时，服务的连续性与…

2026/5/20 19:09:37 阅读更多

TTK开发者指南：如何贡献代码和扩展功能的10个实用技巧

TTK开发者指南：如何贡献代码和扩展功能的10个实用技巧【免费下载链接】ops-test-kit TTK（Ops Test Tool Kit）是CANN算子库提供的全链路、自动化、批量化算子测试框架，帮助开发者快速完成算子批量功能验证、性能评估以及Golden值比…

2026/5/20 19:09:15 阅读更多

【RT-DETR实战】054、局部敏感哈希（LSH）注意力简化：当Transformer遇上内存墙

从一次OOM崩溃说起上周在部署RT-DETR到边缘设备时，遇到了一个经典问题：输入分辨率提到640x640，batch size刚调到4，训练就崩了。 nvidia-smi显示显存占用瞬间冲顶，熟悉的“CUDA out of memory”再次出现。问题定位到Transformer的自注意力层——当序列长度L达到1600（40…

2026/5/20 20:13:04 阅读更多

在 OpenClaw 项目中配置 Taotoken 作为 OpenAI 兼容提供商的具体步骤

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度在 OpenClaw 项目中配置 Taotoken 作为 OpenAI 兼容提供商的具体步骤 1. 准备工作：获取必要的凭证与信息在开始配置之…

2026/5/20 20:12:24 阅读更多

GPT-4高考实战测评：解析大模型在复杂中文任务中的能力边界

1. 项目缘起与核心目标最近，我手头正好有一个GPT-4的API接口，闲来无事，就想试试这个被传得神乎其神的语言模型，到底有没有真本事。正好，网上能找到一些往年的北京高考真题，一个念头就冒了出来：让…

2026/5/20 20:12:24 阅读更多

AWorks平台NFC开发实战：从驱动调用到智能门锁应用集成

1. 项目概述：从一块NFC核心板到AWorks平台开发实战最近在做一个智能门锁的项目，其中涉及到NFC刷卡开锁的功能。为了快速验证和开发，我选用了周立功的AWorks平台和一块他们家的NFC核心板。说实话，一开始看到“AWorks”这个名字&am…

2026/5/20 20:12:24 阅读更多

ELF 1开发板Qt 5.15.2交叉编译移植实战指南

1. 项目概述与核心价值最近在ELF 1开发板上折腾一个带图形界面的小项目，自然绕不开Qt这个老伙计。对于嵌入式开发来说，在资源受限的目标板上直接编译Qt这种大型框架几乎是不可能的任务，所以“交叉编译”就成了从主机生成目标板可执行程序的必…

2026/5/20 20:12:03 阅读更多

告别卡顿！用华为云ECS搭建eNSP Pro大型网络实验的保姆级避坑指南

华为云ECS部署eNSP Pro全流程性能优化实战当你在本地PC上尝试运行包含20台NE路由器的复杂拓扑时，风扇狂转的噪音和逐渐卡死的界面是否让你抓狂？作为一位曾经被32GB内存工作站折磨过的网络工程师，我完全理解这种痛苦。直到发现华为云ECS这个&…

2026/5/20 20:11:22 阅读更多

顶伯在线语音工具背后的技术力量：AI语音合成与深度学习解析

顶伯在线语音工具背后的技术力量在人工智能浪潮中，语音交互正成为人机沟通的核心方式。顶伯作为行业领先的在线语音工具，凭借自主研发的深度学习架构，将文字转化为高度自然的语音，广泛应用于有声阅读、智能客服、教育辅助等领域。…

2026/5/20 0:00:25 阅读更多

全志V3s开发板实战：用Buildroot 2020.02.4定制你的第一个最小Linux文件系统

全志V3s开发板实战：用Buildroot 2020.02.4定制最小Linux文件系统在嵌入式开发领域，构建一个精简高效的Linux文件系统往往是项目成功的关键第一步。全志V3s作为一款高性价比的ARM Cortex-A7芯片，搭配Buildroot这一经典构建工具，能…

2026/5/20 0:00:25 阅读更多

百考通：AI赋能期刊论文写作，智能生成优质内容

在学术研究领域，期刊论文的撰写是成果输出的关键环节，却也让众多科研工作者与学生倍感压力：选题迷茫、逻辑梳理困难、格式规范复杂、内容提炼耗时，严重拖慢了学术成果的发表节奏。百考通（https://www.baikaotongai.com…

2026/5/20 0:00:46 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/20 5:14:40 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/20 16:14:50 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/20 2:02:06 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/20 5:46:58 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/20 3:00:53 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/19 22:33:20 阅读更多

相关文章

5分钟快速上手SignTools：自托管iOS应用签名平台完整教程

开发智能客服系统时利用 Taotoken 实现模型降级与容灾路由的策略

TTK开发者指南：如何贡献代码和扩展功能的10个实用技巧

【RT-DETR实战】054、局部敏感哈希（LSH）注意力简化：当Transformer遇上内存墙

在 OpenClaw 项目中配置 Taotoken 作为 OpenAI 兼容提供商的具体步骤

GPT-4高考实战测评：解析大模型在复杂中文任务中的能力边界

AWorks平台NFC开发实战：从驱动调用到智能门锁应用集成

ELF 1开发板Qt 5.15.2交叉编译移植实战指南

告别卡顿！用华为云ECS搭建eNSP Pro大型网络实验的保姆级避坑指南

顶伯在线语音工具背后的技术力量：AI语音合成与深度学习解析

全志V3s开发板实战：用Buildroot 2020.02.4定制你的第一个最小Linux文件系统

百考通：AI赋能期刊论文写作，智能生成优质内容

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

py每日spider案例之某website之xin东方选课搜索接口(难度一般 扣取代码即可)

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)