别再混淆了！用PyTorch代码实战搞懂上采样与转置卷积（附避坑指南）

发布时间：2026/6/8 18:39:56

用PyTorch代码实战解析上采样与转置卷积的核心差异在计算机视觉任务中图像尺寸的变换是一个基础但至关重要的操作。当我们构建语义分割网络如U-Net或FCN时经常需要在网络中实现特征图从小分辨率到大分辨率的映射。这个过程被称为上采样(Upsample)而转置卷积(Transposed Convolution)是最常用的技术手段之一。然而许多初学者容易将转置卷积与反卷积(Deconvolution)混为一谈甚至误以为它们是卷积运算的逆过程。本文将用PyTorch代码实战的方式带你彻底理解这些概念的差异并分享实际应用中的避坑技巧。1. 上采样的三种主流方法对比上采样本质上是将低分辨率特征图扩展到高分辨率的过程。在PyTorch中我们通常使用以下三种方法1.1 双线性插值(Bilinear Interpolation)双线性插值是一种基于周围像素值进行加权平均的上采样方法。它的计算效率高但无法学习新的特征信息。import torch.nn.functional as F # 假设输入特征图大小为[1, 3, 16, 16] input_tensor torch.randn(1, 3, 16, 16) # 使用双线性插值上采样2倍 output F.interpolate(input_tensor, scale_factor2, modebilinear) print(output.shape) # 输出: torch.Size([1, 3, 32, 32])关键特点计算速度快无额外参数结果平滑但可能丢失高频细节常用于分类网络中的CAM可视化1.2 反池化(Unpooling)反池化通过记录最大池化时的位置信息在反池化时将激活值放回原位置。class UnpoolingDemo(nn.Module): def __init__(self): super().__init__() self.pool nn.MaxPool2d(2, return_indicesTrue) def forward(self, x): size x.size() x, indices self.pool(x) x F.max_unpool2d(x, indices, 2, output_sizesize) return x适用场景需要精确恢复空间位置的任务通常与编码器-解码器结构配合使用1.3 转置卷积(Transposed Convolution)转置卷积通过可学习的卷积核实现上采样是语义分割网络中最常用的方法。# 基础转置卷积示例 trans_conv nn.ConvTranspose2d( in_channels3, out_channels3, kernel_size3, stride2, padding1, output_padding1 ) input torch.randn(1, 3, 16, 16) output trans_conv(input) print(output.shape) # 输出: torch.Size([1, 3, 32, 32])三种方法的对比方法可学习参数计算效率信息恢复能力典型应用场景双线性插值无高低分类网络可视化反池化无中中自编码器结构转置卷积有低高语义分割网络2. 转置卷积的数学本质与常见误区2.1 为什么反卷积是错误称呼严格来说反卷积(Deconvolution)在数学上指的是完全逆转卷积运算的过程。而PyTorch中的ConvTranspose2d实现的是转置卷积操作它只是形状上的逆向并非数学上的逆运算。验证实验# 创建随机输入 x torch.randn(1, 1, 8, 8) # 定义普通卷积和转置卷积 conv nn.Conv2d(1, 1, kernel_size3, stride2, padding1) deconv nn.ConvTranspose2d(1, 1, kernel_size3, stride2, padding1) # 先卷积再转置卷积 y conv(x) x_recon deconv(y) print(f原始形状: {x.shape}) # torch.Size([1, 1, 8, 8]) print(f卷积后形状: {y.shape}) # torch.Size([1, 1, 4, 4]) print(f重建后形状: {x_recon.shape}) # torch.Size([1, 1, 8, 8]) # 检查数值是否恢复 print(数值恢复误差:, torch.norm(x - x_recon).item())实验结果表明虽然形状恢复了但数值完全不同。这证明了转置卷积不是卷积的逆运算。2.2 转置卷积的实际计算过程转置卷积的执行可以分为三个步骤输入插值在输入特征图的元素间插入stride-1个零边界填充在输入周围添加(kernel_size-padding-1)的零填充普通卷积使用旋转180°后的卷积核进行普通卷积# 手动实现转置卷积过程 def manual_transposed_conv(input, weight, stride1, padding0): # 步骤1输入插值 batch, in_channels, h, w input.shape out_h (h - 1) * stride 1 out_w (w - 1) * stride 1 interpolated torch.zeros(batch, in_channels, out_h, out_w) interpolated[:, :, ::stride, ::stride] input # 步骤2边界填充 pad weight.shape[2] - padding - 1 padded F.pad(interpolated, [pad, pad, pad, pad]) # 步骤3普通卷积使用旋转后的核 rotated_weight torch.rot90(weight, 2, dims[2,3]) return F.conv2d(padded, rotated_weight)3. 转置卷积的参数配置技巧3.1 输出尺寸计算公式转置卷积的输出尺寸由以下公式决定H_out (H_in - 1) × stride - 2 × padding dilation × (kernel_size - 1) output_padding 1参数选择指南当希望输出尺寸是输入的整数倍时设stride放大倍数padding(kernel_size - 1)/2output_paddingstride - 1当需要精细控制输出大小时使用output_size参数直接指定注意与其它参数的兼容性3.2 常见配置示例# 示例12倍上采样 trans_conv_2x nn.ConvTranspose2d( in_channels64, out_channels64, kernel_size4, stride2, padding1 ) # 示例2保持尺寸不变的转置卷积 trans_conv_same nn.ConvTranspose2d( in_channels64, out_channels64, kernel_size3, stride1, padding1, output_padding0 ) # 示例3带空洞转置卷积 trans_conv_dilated nn.ConvTranspose2d( in_channels64, out_channels64, kernel_size3, stride1, padding2, dilation2 )3.3 输出尺寸不匹配的调试技巧当遇到输出尺寸不符合预期时可以检查公式计算是否考虑了所有参数使用output_padding微调尺寸打印各层形状定位问题层# 调试示例 def debug_size(input_size, layer): output layer(torch.randn(1, *input_size)) print(fInput: {input_size} - Output: {list(output.shape[1:])}) return output.shape[1:] # 测试网络中的尺寸变化 sizes [(3, 224, 224)] layers [ nn.Conv2d(3, 64, kernel_size7, stride2, padding3), nn.Conv2d(64, 128, kernel_size3, stride2, padding1), nn.ConvTranspose2d(128, 64, kernel_size3, stride2, padding1, output_padding1), nn.ConvTranspose2d(64, 3, kernel_size7, stride2, padding3, output_padding1) ] for layer in layers: sizes.append(debug_size(sizes[-1], layer))4. 实战在U-Net中应用转置卷积4.1 U-Net的转置卷积实现class UNetUpBlock(nn.Module): def __init__(self, in_channels, out_channels): super().__init__() self.up nn.ConvTranspose2d( in_channels, out_channels, kernel_size2, stride2 ) self.conv nn.Sequential( nn.Conv2d(out_channels*2, out_channels, 3, padding1), nn.BatchNorm2d(out_channels), nn.ReLU(), nn.Conv2d(out_channels, out_channels, 3, padding1), nn.BatchNorm2d(out_channels), nn.ReLU() ) def forward(self, x, skip): x self.up(x) x torch.cat([x, skip], dim1) return self.conv(x)4.2 转置卷积的初始化技巧转置卷积核需要特殊初始化以避免棋盘效应def init_weights(m): if isinstance(m, nn.ConvTranspose2d): nn.init.kaiming_normal_(m.weight, modefan_out) # 双线性插值初始化 if m.weight.data.shape[2] 2: m.weight.data[:, :, 0, 0] 0.25 m.weight.data[:, :, 0, 1] 0.25 m.weight.data[:, :, 1, 0] 0.25 m.weight.data[:, :, 1, 1] 0.25 if m.bias is not None: nn.init.constant_(m.bias, 0) model.apply(init_weights)4.3 转置卷积的替代方案当转置卷积导致棋盘伪影时可以考虑调整核大小使用能被stride整除的核大小组合方法先最近邻上采样再普通卷积子像素卷积通过通道重排实现上采样# 替代方案实现示例 class UpsampleConv(nn.Module): def __init__(self, in_channels, out_channels, scale2): super().__init__() self.scale scale self.conv nn.Conv2d( in_channels, out_channels, kernel_size3, padding1 ) def forward(self, x): x F.interpolate(x, scale_factorself.scale, modenearest) return self.conv(x)在实际项目中转置卷积的选择需要平衡计算效率、内存占用和输出质量。对于高分辨率图像分割可以先下采样到中等分辨率处理再用转置卷积上采样最后用双线性插值放大到目标尺寸。

掌握Joplin：从零开始的高效笔记管理指南

掌握Joplin：从零开始的高效笔记管理指南【免费下载链接】joplin Joplin - the privacy-focused note taking app with sync capabilities for Windows, macOS, Linux, Android and iOS. 项目地址: https://gitcode.com/GitHub_Trending/jo/joplin Joplin是一…

2026/6/8 18:39:15 阅读更多

深度解析：如何利用Petite Vue实现渐进式增强的完整指南

深度解析：如何利用Petite Vue实现渐进式增强的完整指南【免费下载链接】petite-vue 6kb subset of Vue optimized for progressive enhancement 项目地址: https://gitcode.com/gh_mirrors/pe/petite-vue 在当今追求极致性能的Web开发领域，开发者…

2026/6/8 18:37:10 阅读更多

BongoCat：让键盘敲击与游戏操作变得生动有趣的桌面互动萌宠

BongoCat：让键盘敲击与游戏操作变得生动有趣的桌面互动萌宠【免费下载链接】BongoCat 🐱 跨平台互动桌宠 BongoCat，为桌面增添乐趣！ 项目地址: https://gitcode.com/gh_mirrors/bong/BongoCat 想象一下，当你专…

2026/6/8 18:36:09 阅读更多

别再到处找教程了！一份保姆级的SimpleFOC、ODrive、VESC学习路线图（附资源下载）

从零构建电机控制技能树：SimpleFOC/ODrive/VESC实战路线图第一次接触无刷电机控制时，我被各种术语轰炸得头晕目眩——FOC算法、SVPWM调制、电流环控制，更别提还要在SimpleFOC、ODrive和VESC这些开源项目中做选择。经过三个月的踩坑实践&#…

2026/6/8 19:48:25 阅读更多

2023电赛E题STM32F1嵌入式工程：CAN通信+伺服控制+完整驱动与算法实现

本文还有配套的精品资源，点击获取简介：基于STM32F103系列微控制器，提供2023年全国大学生电子设计竞赛E题可直接运行的嵌入式固件工程。包含HAL库底层驱动、硬件抽象层（BSP）、多外设通信支持（CAN/USART/…

2026/6/8 19:48:25 阅读更多

从算法到网格：一文读懂CloudCompare中Delaunay三角剖分的三种核心算法及其性能选择

从算法到网格：CloudCompare中Delaunay三角剖分的三种核心算法与工程实践指南在三维点云处理领域，Delaunay三角剖分如同一位无声的建筑师，将离散的空间数据点转化为连续的空间结构。当我们面对LiDAR扫描的城市场景或地质勘探的海量点云时&…

2026/6/8 19:47:23 阅读更多

无线通信基石：从CDMA到5G，硬判决Viterbi译码为何仍是经典？

无线通信的永恒经典：Viterbi译码在5G时代的技术生命力在巴塞罗那世界移动通信大会的某个展台角落，几位资深工程师正围绕着一块FPGA开发板激烈讨论。板卡上闪烁的LED灯背后，运行的是一套已经服役二十多年的Viterbi译码算法——这个诞生于1967年…

2026/6/8 19:46:22 阅读更多

PN7160 NFC控制器硬件集成与软件移植实战指南

1. 项目概述：为什么选择PN7160作为NFC集成方案？如果你正在为你的智能设备（无论是IoT终端、工控面板还是消费电子产品）寻找一个成熟、稳定且易于集成的NFC解决方案，那么NXP的PN7160控制器绝对是一个绕不开的选项。我在过…

2026/6/8 19:46:22 阅读更多

旧手机别扔！手把手教你用Termux+Ubuntu搭建24小时在线的个人服务器（附frp内网穿透配置）

闲置安卓手机变身全天候个人服务器：Termux与Ubuntu的极致改造指南每次换新手机后，那台旧设备往往被遗忘在抽屉角落。但你可能不知道，这些被淘汰的安卓手机完全可以变身为功能强大的个人服务器，7x24小时为你提供各种实用服务。本文…

2026/6/8 19:46:02 阅读更多

解决老旧机顶盒资源化难题：Amlogic S9xxx Armbian项目在TY1608设备上的系统适配实现

解决老旧机顶盒资源化难题：Amlogic S9xxx Armbian项目在TY1608设备上的系统适配实现【免费下载链接】amlogic-s9xxx-armbian Supports running Armbian on Amlogic, Allwinner, and Rockchip devices. Support a311d, s922x, s905x3, s905x2, s912, s905d, s905x, …

2026/6/8 0:00:25 阅读更多

Python Scrapy 爬虫实战进阶系列（一）：轻量化数据存储 - 数据精准写入 SQLite 数据库

前言在 Python 爬虫开发领域中，Scrapy 作为高性能、高可扩展性的异步爬虫框架，是行业内采集结构化数据的首选工具。在中小型爬虫项目、本地数据采集、轻量化数据存储场景中，SQLite 无需独立服务、单文件存储、原生兼容 Python 的特性&#…

2026/6/8 0:00:45 阅读更多

3步实现Windows直读Btrfs分区：跨平台文件系统互通终极方案

3步实现Windows直读Btrfs分区：跨平台文件系统互通终极方案【免费下载链接】btrfs WinBtrfs - an open-source btrfs driver for Windows 项目地址: https://gitcode.com/gh_mirrors/bt/btrfs 还在为Windows无法访问Linux Btrfs分区而烦恼吗？你是…

2026/6/8 0:03:08 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/8 0:06:11 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/8 0:06:11 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/8 0:06:11 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/8 9:43:25 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/8 9:43:23 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/8 9:43:30 阅读更多

相关文章

掌握Joplin：从零开始的高效笔记管理指南

深度解析：如何利用Petite Vue实现渐进式增强的完整指南

BongoCat：让键盘敲击与游戏操作变得生动有趣的桌面互动萌宠

别再到处找教程了！一份保姆级的SimpleFOC、ODrive、VESC学习路线图（附资源下载）

2023电赛E题STM32F1嵌入式工程：CAN通信+伺服控制+完整驱动与算法实现

从算法到网格：一文读懂CloudCompare中Delaunay三角剖分的三种核心算法及其性能选择

无线通信基石：从CDMA到5G，硬判决Viterbi译码为何仍是经典？

PN7160 NFC控制器硬件集成与软件移植实战指南

旧手机别扔！手把手教你用Termux+Ubuntu搭建24小时在线的个人服务器（附frp内网穿透配置）

解决老旧机顶盒资源化难题：Amlogic S9xxx Armbian项目在TY1608设备上的系统适配实现

Python Scrapy 爬虫实战进阶系列（一）：轻量化数据存储 - 数据精准写入 SQLite 数据库

3步实现Windows直读Btrfs分区：跨平台文件系统互通终极方案

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因