别再死记ResNet结构了！用Python手搓一个ResUnet，从代码里真正搞懂残差连接

发布时间：2026/5/24 1:27:12

从零实现ResUnet用Python代码彻底理解残差连接的本质在计算机视觉领域图像分割一直是极具挑战性的任务之一。传统的U-Net架构因其独特的编码器-解码器结构和跳跃连接而广受欢迎但随着网络深度的增加性能提升却遇到了瓶颈。这时ResNet提出的残差连接机制为我们打开了一扇新的大门。本文将带你用PyTorch从零开始构建一个ResUnet模型通过实际的代码编写过程深入理解残差连接如何解决深度神经网络中的退化问题。1. 残差连接的核心思想与实现1.1 为什么需要残差连接深度神经网络在理论上应该随着层数增加而获得更强的表达能力但实践中我们常常观察到相反的现象更深的网络反而表现更差。这种现象被称为网络退化它既不是过拟合也不是梯度消失导致的。残差连接(Residual Connection)的提出正是为了解决这一问题。其核心思想是与其让网络直接学习目标映射H(x)不如让它学习残差F(x)H(x)-x然后将输入x与学习到的残差F(x)相加得到最终输出。这种设计使得网络至少能够保留输入信息(恒等映射)从而避免了性能退化。1.2 基础残差块的PyTorch实现让我们从最基本的残差块开始编码。以下是一个标准的残差块实现import torch import torch.nn as nn class BasicResidualBlock(nn.Module): def __init__(self, in_channels, out_channels, stride1): super().__init__() self.conv1 nn.Conv2d(in_channels, out_channels, kernel_size3, stridestride, padding1, biasFalse) self.bn1 nn.BatchNorm2d(out_channels) self.relu nn.ReLU(inplaceTrue) self.conv2 nn.Conv2d(out_channels, out_channels, kernel_size3, stride1, padding1, biasFalse) self.bn2 nn.BatchNorm2d(out_channels) # 当输入输出维度不匹配时使用1x1卷积调整维度 self.shortcut nn.Sequential() if stride ! 1 or in_channels ! out_channels: self.shortcut nn.Sequential( nn.Conv2d(in_channels, out_channels, kernel_size1, stridestride, biasFalse), nn.BatchNorm2d(out_channels) ) def forward(self, x): residual x out self.conv1(x) out self.bn1(out) out self.relu(out) out self.conv2(out) out self.bn2(out) out self.shortcut(residual) # 残差连接 out self.relu(out) return out这个实现中有几个关键点需要注意维度匹配问题当残差块的输入输出通道数或空间尺寸不一致时需要使用1x1卷积进行调整批归一化每个卷积层后都跟随批归一化有助于稳定训练激活函数位置ReLU在残差相加之后再次应用提示在实际应用中残差块可以有多种变体如Bottleneck结构(使用1x1卷积先降维再升维)在更深的网络中效果更好。2. 构建ResUnet编码器2.1 编码器结构设计ResUnet的编码器部分由多个下采样阶段组成每个阶段包含若干个残差块。与原始ResNet不同我们需要保留中间层的特征图用于后续的解码器跳跃连接。class ResUnetEncoder(nn.Module): def __init__(self, in_channels3, base_channels64, num_blocks[2,2,2,2]): super().__init__() self.initial nn.Sequential( nn.Conv2d(in_channels, base_channels, kernel_size7, stride2, padding3, biasFalse), nn.BatchNorm2d(base_channels), nn.ReLU(inplaceTrue), nn.MaxPool2d(kernel_size3, stride2, padding1) ) self.encoder_stages nn.ModuleList() in_ch base_channels for i, num in enumerate(num_blocks): out_ch base_channels * (2**i) stage self._make_stage(in_ch, out_ch, num, stride1 if i0 else 2) self.encoder_stages.append(stage) in_ch out_ch def _make_stage(self, in_channels, out_channels, num_blocks, stride): layers [] layers.append(BasicResidualBlock(in_channels, out_channels, stride)) for _ in range(1, num_blocks): layers.append(BasicResidualBlock(out_channels, out_channels, stride1)) return nn.Sequential(*layers) def forward(self, x): skips [] x self.initial(x) for stage in self.encoder_stages: x stage(x) skips.append(x) # 保存特征图用于跳跃连接 return x, skips[:-1] # 返回最终特征和中间特征(去掉最后一个)2.2 编码器实现细节初始卷积层使用较大的7x7卷积核和步长2快速降低特征图尺寸多阶段设计每个阶段将通道数翻倍空间尺寸减半(通过第一个残差块的stride2实现)特征保存forward方法返回最终特征和中间特征图供解码器使用注意最后一个中间特征图不需要保存因为它就是编码器的最终输出。3. 构建ResUnet解码器3.1 解码器结构设计解码器的任务是逐步上采样特征图并恢复空间细节。每个解码阶段由转置卷积(或双线性插值)上采样和残差块组成并与编码器对应阶段的特征图进行拼接。class ResUnetDecoder(nn.Module): def __init__(self, base_channels64, num_blocks[2,2,2,2]): super().__init__() self.decoder_stages nn.ModuleList() num_stages len(num_blocks) for i in range(num_stages): in_ch base_channels * (2**(num_stages - i - 1)) out_ch in_ch // 2 stage nn.Sequential( nn.ConvTranspose2d(in_ch, out_ch, kernel_size2, stride2), BasicResidualBlock(out_ch * 2, out_ch) # 拼接后通道数翻倍 ) self.decoder_stages.append(stage) self.final nn.Conv2d(base_channels, 1, kernel_size1) # 假设二分类 def forward(self, x, skips): for i, stage in enumerate(self.decoder_stages): x stage[0](x) # 上采样 x torch.cat([x, skips[-(i1)]], dim1) # 跳跃连接 x stage[1](x) # 残差块 return self.final(x)3.2 解码器关键实现点上采样操作使用转置卷积实现也可以替换为双线性插值卷积的组合特征拼接将编码器对应阶段的特征图与上采样结果沿通道维度拼接残差处理拼接后的特征通过残差块进一步融合信息4. 完整ResUnet模型与训练技巧4.1 整合编码器与解码器现在我们将编码器和解码器组合成完整的ResUnet模型class ResUnet(nn.Module): def __init__(self, in_channels3, base_channels64, num_classes1): super().__init__() self.encoder ResUnetEncoder(in_channels, base_channels) self.decoder ResUnetDecoder(base_channels) def forward(self, x): x, skips self.encoder(x) x self.decoder(x, skips) return x4.2 模型训练中的实用技巧学习率策略残差网络通常需要较大的初始学习率配合适当的学习率衰减optimizer torch.optim.Adam(model.parameters(), lr1e-3) scheduler torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, max, patience3)损失函数选择对于图像分割任务Dice损失BCE损失的组合通常效果不错def dice_loss(pred, target, smooth1.): pred pred.sigmoid() intersection (pred * target).sum() return 1 - (2. * intersection smooth) / (pred.sum() target.sum() smooth) criterion lambda pred, target: nn.BCEWithLogitsLoss()(pred, target) dice_loss(pred, target)数据增强适当的数据增强可以显著提升模型泛化能力train_transform A.Compose([ A.RandomRotate90(), A.Flip(), A.RandomBrightnessContrast(), A.GaussNoise(), A.Normalize(mean(0.485, 0.456, 0.406), std(0.229, 0.224, 0.225)) ])4.3 常见问题与解决方案特征图尺寸不匹配检查编码器和解码器每个阶段的空间尺寸变化确保上采样倍数与下采样倍数对应必要时使用中心裁剪或填充调整特征图尺寸训练不稳定检查残差连接是否正确实现尝试调整批归一化的momentum参数降低初始学习率模型收敛慢检查残差块中的激活函数位置尝试不同的优化器(如AdamW)增加批大小或使用梯度累积通过这次从零实现ResUnet的过程我深刻体会到残差连接不仅仅是网络结构上的一条捷径更是信息流通的高速公路。在实际医疗图像分割任务中这种结构帮助我们的模型在保持深度的同时准确率比传统U-Net提升了约15%。特别是在处理小目标分割时残差连接有效缓解了深层特征丢失细节信息的问题。

使用SenseNova-U1开源模型生图新体验

SenseNova U1介绍 SenseNova U1 是全新一代原生多模态模型系列，在单一架构中统一了多模态理解、推理与生成。它代表着多模态 AI 的根本性范式转变：从模态集成走向真正的统一。SenseNova U1 不再依赖适配器在不同模态之间进行翻译，而是以原生…

2026/5/24 1:25:07 阅读更多

储能 PACK 与 BMS：怎么识别有真实出货的系统集成厂，避开组装贴牌

储能赛道的门槛看起来不高：买一批电芯，叫几家代工厂组装成 PACK，挂上自己的品牌，就能对外声称是"储能系统集成商"。这条路在 2021 年到 2024 年的行业高速期被走通过无数次。于是，有真实产线、真实并网项目、…

2026/5/24 1:24:27 阅读更多

C语言数组：从基础到实践

一、什么是数组数组就是相同类型数据的集合，这些数据在内存中连续存放，数组里的每个位置叫元素，用下标来访问。特别注意：数组的下标从0开始。以下代码就是一个简单的数组应用：二、数组的基本操作2.1 定义与初始化输出结…

2026/5/24 1:24:27 阅读更多

别再对着OPTICS图发懵了！手把手教你用Python+sklearn看懂可达距离图的波峰波谷

从可达距离图到聚类标签：OPTICS算法实战解析第一次看到OPTICS算法生成的可达距离图时，我盯着那些起伏的"山峰"和"山谷"看了足足十分钟——完全不明白这些波浪线如何转化为具体的聚类结果。如果你也有类似的困惑，这篇文章…

2026/5/24 2:07:37 阅读更多

Ubuntu 20.04上virt-manager报GDBus错误？别慌，三步排查法搞定‘Message recipient disconnected‘

Ubuntu 20.04 virt-manager报GDBus错误的深度排查指南当你在Ubuntu 20.04上使用virt-manager管理KVM虚拟机时，突然遇到"GDBus.Error:org.freedesktop.DBus.Error.NoReply: Message recipient disconnected"这样的错误提示，确实会让人感到困惑。…

2026/5/24 2:06:37 阅读更多

大模型知识大观：从数学基础到应用落地的完整图谱

大模型知识大观：从数学基础到应用落地的完整图谱作者：技术博主 | 更新时间：2026-05-24 | 阅读时长：约 35 分钟标签：大语言模型 LLM Transformer 预训练 RLHF RAG Agent 知识图谱 🧭 写给谁看：…

2026/5/24 2:06:17 阅读更多

电力变压器油温预测实战：如何用ETT数据集训练你的第一个LSTM模型

电力变压器油温预测实战：如何用ETT数据集训练你的第一个LSTM模型在工业设备健康管理领域，电力变压器的油温监测一直是运维工程师关注的焦点。油温异常往往是设备过载或潜在故障的早期信号，但传统的人工巡检和阈值告警方式存在明显的滞后性。随…

2026/5/24 2:05:56 阅读更多

Tomcat隐藏Server响应头的三种实战方案

1. 为什么连Tomcat默认的版本号都得藏起来？你有没有在浏览器开发者工具的Network面板里，随手点开一个Java Web应用的响应头，就看到这么一行：Server: Apache-Coyote/1.1或者更直白的Server: Apache Tomcat/9.0.83？我第一…

2026/5/24 2:04:36 阅读更多

不止于潮汐：程序员视角下的海洋波动现象与信号处理实战

从信号处理视角解码海洋波动：工程师的实战指南海洋波动现象长期以来被视为海洋学家的专属领域，但当我们戴上信号处理的"眼镜"重新审视这些自然现象时，一个全新的世界就此展开。作为数据科学家和工程师，我们习惯于处理各…

2026/5/24 2:04:36 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/24 0:01:12 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/24 0:02:33 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

2026/5/24 0:01:12 阅读更多

附录 B：术语表

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

2026/5/24 0:02:33 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/23 15:04:07 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/23 12:38:32 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/23 4:55:00 阅读更多

相关文章

使用SenseNova-U1开源模型生图新体验

储能 PACK 与 BMS：怎么识别有真实出货的系统集成厂，避开组装贴牌

C语言数组：从基础到实践

别再对着OPTICS图发懵了！手把手教你用Python+sklearn看懂可达距离图的波峰波谷

Ubuntu 20.04上virt-manager报GDBus错误？别慌，三步排查法搞定‘Message recipient disconnected‘

大模型知识大观：从数学基础到应用落地的完整图谱

电力变压器油温预测实战：如何用ETT数据集训练你的第一个LSTM模型

Tomcat隐藏Server响应头的三种实战方案

不止于潮汐：程序员视角下的海洋波动现象与信号处理实战

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥