在PyTorch里手把手实现ODConv：一个Attention类搞定多维注意力卷积

发布时间：2026/5/21 5:46:26

在PyTorch里手把手实现ODConv一个Attention类搞定多维注意力卷积深度卷积神经网络的核心在于如何高效提取特征而传统卷积操作往往对所有位置和通道一视同仁。ODConvOmni-Dimensional Convolution通过引入多维注意力机制让网络能够动态调整卷积核在不同维度上的重要性。本文将带您从零实现这个强大的模块重点关注Attention类的设计精髓。1. 理解ODConv的核心思想ODConv的创新点在于同时考虑四种注意力机制通道注意力学习不同输入通道的重要性滤波器注意力动态调整输出滤波器通道的权重空间注意力关注特征图上不同空间位置的重要性卷积核注意力在多个卷积核之间进行加权组合这种全方位的注意力机制使模型能够更精细地调整卷积操作相比传统的注意力卷积如SE、CBAM等具有更全面的特征适应能力。2. 构建Attention类多维注意力的核心引擎2.1 初始化函数设计class Attention(nn.Module): def __init__(self, in_planes, out_planes, kernel_size, groups1, reduction0.0625, kernel_num4, min_channel16): super(Attention, self).__init__() attention_channel max(int(in_planes * reduction), min_channel) self.kernel_size kernel_size self.kernel_num kernel_num self.temperature 1.0 # 共享的特征提取层 self.avgpool nn.AdaptiveAvgPool2d(1) self.fc nn.Conv2d(in_planes, attention_channel, 1, biasFalse) self.bn nn.BatchNorm2d(attention_channel) self.relu nn.ReLU(inplaceTrue) # 通道注意力分支 self.channel_fc nn.Conv2d(attention_channel, in_planes, 1, biasTrue) # 根据卷积类型决定是否使用滤波器注意力 if in_planes groups and in_planes out_planes: # depth-wise卷积 self.func_filter self.skip else: self.filter_fc nn.Conv2d(attention_channel, out_planes, 1, biasTrue) self.func_filter self.get_filter_attention # 根据卷积核大小决定是否使用空间注意力 if kernel_size 1: # point-wise卷积 self.func_spatial self.skip else: self.spatial_fc nn.Conv2d(attention_channel, kernel_size * kernel_size, 1, biasTrue) self.func_spatial self.get_spatial_attention # 根据卷积核数量决定是否使用核注意力 if kernel_num 1: self.func_kernel self.skip else: self.kernel_fc nn.Conv2d(attention_channel, kernel_num, 1, biasTrue) self.func_kernel self.get_kernel_attention self._initialize_weights()初始化函数有几个关键设计点注意力通道计算通过reduction比率压缩通道数但保证不少于min_channel分支条件判断Depth-wise卷积时跳过滤波器注意力1x1卷积时跳过空间注意力单卷积核时跳过核注意力共享底层特征提取所有注意力分支共享avgpool-fc-bn-relu结构2.2 四种注意力计算方式staticmethod def skip(_): return 1.0 def get_channel_attention(self, x): channel_attention torch.sigmoid( self.channel_fc(x).view(x.size(0), -1, 1, 1) / self.temperature) return channel_attention def get_filter_attention(self, x): filter_attention torch.sigmoid( self.filter_fc(x).view(x.size(0), -1, 1, 1) / self.temperature) return filter_attention def get_spatial_attention(self, x): spatial_attention self.spatial_fc(x).view( x.size(0), 1, 1, 1, self.kernel_size, self.kernel_size) spatial_attention torch.sigmoid(spatial_attention / self.temperature) return spatial_attention def get_kernel_attention(self, x): kernel_attention self.kernel_fc(x).view( x.size(0), -1, 1, 1, 1, 1) kernel_attention F.softmax(kernel_attention / self.temperature, dim1) return kernel_attention四种注意力的关键区别注意力类型激活函数输出形状作用范围通道注意力Sigmoid[B, in_planes, 1, 1]输入通道维度滤波器注意力Sigmoid[B, out_planes, 1, 1]输出通道维度空间注意力Sigmoid[B, 1, 1, 1, K, K]卷积核空间维度卷积核注意力Softmax[B, kernel_num, 1, 1, 1, 1]多卷积核选择维度2.3 前向传播逻辑def forward(self, x): x self.avgpool(x) # [B, C, 1, 1] x self.fc(x) # 降维到attention_channel x self.bn(x) x self.relu(x) return ( self.func_channel(x), # 通道注意力 self.func_filter(x), # 滤波器注意力 self.func_spatial(x), # 空间注意力 self.func_kernel(x) # 卷积核注意力 )前向传播的流程非常清晰全局平均池化压缩空间信息通过全连接层降维BN和ReLU激活分别计算四种注意力权重3. 实现ODConv2d类整合多维注意力3.1 初始化与权重设置class ODConv2d(nn.Module): def __init__(self, in_planes, out_planes, kernel_size, stride1, padding0, dilation1, groups1, reduction0.0625, kernel_num4): super(ODConv2d, self).__init__() # 保存基本卷积参数 self.in_planes in_planes self.out_planes out_planes self.kernel_size kernel_size self.stride stride self.padding padding self.dilation dilation self.groups groups self.kernel_num kernel_num # 初始化注意力模块 self.attention Attention(in_planes, out_planes, kernel_size, groupsgroups, reductionreduction, kernel_numkernel_num) # 初始化卷积核权重 [kernel_num, out, in//groups, K, K] self.weight nn.Parameter( torch.randn(kernel_num, out_planes, in_planes//groups, kernel_size, kernel_size), requires_gradTrue) self._initialize_weights() # 特殊情况下使用优化实现 if self.kernel_size 1 and self.kernel_num 1: self._forward_impl self._forward_impl_pw1x else: self._forward_impl self._forward_impl_common初始化阶段的关键点权重张量形状[kernel_num, out_planes, in_planes//groups, K, K]支持多卷积核前向实现选择1x1点卷积且单核时使用优化路径Kaiming初始化保持与ReLU激活函数兼容3.2 通用前向传播实现def _forward_impl_common(self, x): # 获取四种注意力权重 channel_attention, filter_attention, spatial_attention, kernel_attention self.attention(x) batch_size, in_planes, height, width x.size() # 应用通道注意力 x x * channel_attention # 重组输入特征图 [B*C, 1, H, W] x x.reshape(1, -1, height, width) # 计算聚合权重空间注意力 * 核注意力 * 原始权重 aggregate_weight spatial_attention * kernel_attention * self.weight.unsqueeze(dim0) # 求和并重塑为标准卷积核形状 [out*B, in//groups, K, K] aggregate_weight torch.sum(aggregate_weight, dim1).view( [-1, self.in_planes // self.groups, self.kernel_size, self.kernel_size]) # 执行分组卷积groupsbatch_size*原始groups output F.conv2d( x, weightaggregate_weight, biasNone, strideself.stride, paddingself.padding, dilationself.dilation, groupsself.groups * batch_size) # 恢复输出形状 [B, out, H, W] output output.view(batch_size, self.out_planes, output.size(-2), output.size(-1)) # 应用滤波器注意力 output output * filter_attention return output通用前向传播的关键步骤注意力权重应用顺序通道注意力直接作用于输入特征空间和核注意力作用于卷积核权重滤波器注意力作用于输出特征高效实现技巧通过reshape和groups参数实现批量卷积使用广播机制高效计算注意力加权数学等价性通道注意力可以等价地应用于输入或权重这里选择应用于输入以减少计算量3.3 1x1点卷积的优化实现def _forward_impl_pw1x(self, x): # 获取注意力权重空间和核注意力被跳过 channel_attention, filter_attention, _, _ self.attention(x) # 应用通道注意力 x x * channel_attention # 执行标准1x1卷积 [kernel_num1, 所以直接squeeze] output F.conv2d( x, weightself.weight.squeeze(dim0), biasNone, strideself.stride, paddingself.padding, dilationself.dilation, groupsself.groups) # 应用滤波器注意力 output output * filter_attention return output优化路径的特点简化计算跳过不必要的注意力计算内存高效避免中间张量的reshape操作数学等价结果与通用实现完全一致4. 实际应用技巧与性能考量4.1 温度参数的作用Attention类中的temperature参数控制注意力权重的尖锐程度def update_temperature(self, temperature): self.temperature temperature高温(1.0)注意力分布更平滑低温(1.0)注意力更集中于少数维度典型用法训练初期用高温后期逐渐降低4.2 内存与计算效率优化ODConv的主要开销来自四个方面注意力计算与输入分辨率无关感谢全局池化权重聚合增加了kernel_num维度的计算特征图reshape需要临时内存大分组卷积groupsB*G可能影响并行效率实测建议输入分辨率大时ODConv相对开销小网络深层通道数多时适当减小kernel_num1x1卷积使用优化路径4.3 与其他注意力模块的对比模块通道注意力空间注意力滤波器注意力核注意力参数量增加SE✓小CBAM✓✓中BAM✓✓中ODConv✓✓✓✓较大ODConv的独特优势四种注意力全面覆盖卷积操作的各个维度核注意力实现多卷积核动态融合滤波器注意力调节输出通道重要性4.4 在现有网络中的集成示例import torchvision def convert_conv2d_to_odconv(model, kernel_num1): for name, module in model.named_children(): if isinstance(module, nn.Conv2d): # 保持原有参数创建ODConv odconv ODConv2d( in_planesmodule.in_channels, out_planesmodule.out_channels, kernel_sizemodule.kernel_size[0], stridemodule.stride[0], paddingmodule.padding[0], dilationmodule.dilation[0], groupsmodule.groups, kernel_numkernel_num ) # 复制原始权重重复kernel_num次 with torch.no_grad(): odconv.weight.data module.weight.data.unsqueeze(0).repeat( kernel_num, 1, 1, 1, 1) setattr(model, name, odconv) else: # 递归处理子模块 convert_conv2d_to_odconv(module, kernel_num) # 示例将ResNet-18的所有卷积替换为ODConv model torchvision.models.resnet18() convert_conv2d_to_odconv(model, kernel_num4)集成时的注意事项渐进式替换先替换部分关键卷积观察效果kernel_num选择深层网络使用较小的kernel_num初始化策略多卷积核时保持初始行为一致

保姆级教程：用Python+Sympy辅助LTspice，精确计算带通放大电路的增益与频响

用PythonSympy实现LTspice电路建模：从符号推导到频响验证的工程实践在硬件设计领域，仿真工具与数学工具的融合正在重塑工程师的工作流程。当面对一个多级反馈的带通放大电路时，传统依赖仿真软件"黑箱"操作的方式往往让我们错失深…

2026/5/21 5:45:46 阅读更多

ARM A64 SIMD浮点比较指令FCMGE与FCMGT详解

1. ARM A64 SIMD浮点比较指令概述在ARMv8-A架构中，A64指令集引入了强大的SIMD(单指令多数据)和浮点运算能力。作为其中的重要组成部分，浮点比较指令在科学计算、图形处理和机器学习等领域发挥着关键作用。FCMGE(Floating-point Compare Greater than or …

2026/5/21 5:44:05 阅读更多

用K210开发板驱动HUB75E点阵屏：从SPI时序到S型排列的完整避坑指南

用K210开发板驱动HUB75E点阵屏：从SPI时序到S型排列的完整避坑指南在嵌入式开发领域，驱动LED点阵屏一直是兼具挑战性和实用性的课题。当K210这款高性能RISC-V开发板遇上HUB75E接口的大尺寸点阵屏，开发者往往会在SPI时序优化、内存管理和独特的…

2026/5/21 5:42:24 阅读更多

告别手动写Testbench！用Quartus II + ModelSim自动生成仿真模板的保姆级教程

Quartus II ModelSim自动化测试框架实战：从零构建高效数字电路验证流程在数字电路设计领域，验证工作往往消耗工程师60%以上的开发时间。传统手动编写Testbench的方式不仅效率低下，还容易引入人为错误。Altera Quartus II内置的Test Bench T…

2026/5/21 10:37:13 阅读更多

5分钟搞定专业网络拓扑图：easy-topo终极使用指南

5分钟搞定专业网络拓扑图：easy-topo终极使用指南【免费下载链接】easy-topo vuesvgelement-ui 快捷画出网络拓扑图项目地址: https://gitcode.com/gh_mirrors/ea/easy-topo 还在为绘制复杂的网络架构图而头疼吗？网络拓扑图是网络工程师、系统管…

2026/5/21 10:37:13 阅读更多

5个关键步骤：让你的Windows视频播放体验达到专业级水准

5个关键步骤：让你的Windows视频播放体验达到专业级水准【免费下载链接】VideoRenderer Внешний видео-рендерер 项目地址: https://gitcode.com/gh_mirrors/vi/VideoRenderer 你是否曾经在Windows上观看高质量视频时，感觉画…

2026/5/21 10:37:13 阅读更多

ArcGIS 专题图避坑指南：经纬网标注乱码、超出边框怎么办？

ArcGIS专题图经纬网标注优化实战：从乱码到专业呈现引言在地理信息系统（GIS）制图领域，专题图是展示空间数据特征的重要工具。而经纬网作为地图的基础坐标框架，其标注的规范性和美观度直接影响地图的专业性和可读性。…

2026/5/21 10:36:52 阅读更多

终极指南：使用DistroAV NDI插件构建专业级无线视频制作系统

终极指南：使用DistroAV NDI插件构建专业级无线视频制作系统【免费下载链接】obs-ndi DistroAV (formerly OBS-NDI): NDI integration for OBS Studio 项目地址: https://gitcode.com/gh_mirrors/ob/obs-ndi 在当今的多机位直播和分布式视频制作领域&#xf…

2026/5/21 10:36:32 阅读更多

MPC Video Renderer：让你的Windows视频播放体验焕然一新的终极指南

MPC Video Renderer：让你的Windows视频播放体验焕然一新的终极指南【免费下载链接】VideoRenderer Внешний видео-рендерер 项目地址: https://gitcode.com/gh_mirrors/vi/VideoRenderer 还在为Windows系统上的视频播放效果感到失望吗&…

2026/5/21 10:34:47 阅读更多

别只刷固件了！用MissionPlanner搞定四旋翼‘飘移’问题，校准compass_mot全流程

四旋翼飞行品质优化：MissionPlanner高级校准实战指南当你的四旋翼无人机已经能够稳定起飞，却在定高模式下出现难以解释的飘移现象时，这往往意味着需要进入更深层次的飞控调校阶段。许多飞手在完成基础校准后便止步不前，殊不知电机…

2026/5/21 0:00:23 阅读更多

科研学术篇---论文搜索方法

高效搜集和研读论文，是构建扎实知识体系的基石。要想做到“高效”与“高质”并重，需要把整个过程当作一个闭环系统来优化——从目标锁定、来源筛选、检索策略，到快速粗筛、深度内化、持续追踪，每一步都有对应的工具和心法。下面逐…

2026/5/21 0:01:25 阅读更多

YOLOv11城市道路摩托车与自行车目标检测数据集-1569张-motorcycle-1_2

YOLOv11城市道路摩托车与自行车目标检测数据集 📊 数据集基本信息目标类别： [‘bike’, ‘motorcycle’]中文类别：[‘自行车’, ‘摩托车’]训练集：1374 张验证集：130 张测试集：65 张总计：1569…

2026/5/21 0:03:28 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/21 8:30:37 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/20 16:14:50 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/21 2:29:29 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/21 8:30:37 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/21 5:00:59 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/21 1:50:14 阅读更多

相关文章

保姆级教程：用Python+Sympy辅助LTspice，精确计算带通放大电路的增益与频响

ARM A64 SIMD浮点比较指令FCMGE与FCMGT详解

用K210开发板驱动HUB75E点阵屏：从SPI时序到S型排列的完整避坑指南

告别手动写Testbench！用Quartus II + ModelSim自动生成仿真模板的保姆级教程

5分钟搞定专业网络拓扑图：easy-topo终极使用指南

5个关键步骤：让你的Windows视频播放体验达到专业级水准

ArcGIS 专题图避坑指南：经纬网标注乱码、超出边框怎么办？

终极指南：使用DistroAV NDI插件构建专业级无线视频制作系统

MPC Video Renderer：让你的Windows视频播放体验焕然一新的终极指南

别只刷固件了！用MissionPlanner搞定四旋翼‘飘移’问题，校准compass_mot全流程

科研学术篇---论文搜索方法

YOLOv11城市道路摩托车与自行车目标检测数据集-1569张-motorcycle-1_2

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

py每日spider案例之某website之xin东方选课搜索接口(难度一般 扣取代码即可)

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)