别再死记ResNet了！用PyTorch从零复现DenseNet-121，搞懂‘密集连接’到底密在哪

发布时间：2026/6/6 7:49:14

从零构建DenseNet-121用PyTorch拆解密集连接的数学之美在深度学习领域卷积神经网络(CNN)的架构创新一直是推动计算机视觉进步的关键动力。当ResNet通过残差连接解决了深层网络梯度消失问题后DenseNet以一种更为激进的方式重新定义了层间连接——它不仅让当前层能够访问前一层的特征还让所有前面层的特征都直接连通到当前层。这种密集连接(Dense Connection)的设计理念使得DenseNet在参数效率、特征复用和梯度流动等方面展现出独特优势。本文将带您用PyTorch从零开始实现DenseNet-121通过可运行的代码和动态张量可视化深入理解密集连接如何实现特征图的滚雪球式增长1×1卷积(Bottleneck层)在通道维度控制中的精妙作用Transition Layer如何平衡计算复杂度和特征保留为什么DenseNet比传统CNN更适合小样本学习场景1. 密集连接的核心思想与数学表达DenseNet最核心的创新在于其密集块(Dense Block)设计。与传统CNN逐层传递特征不同在密集块中第l层的输入不仅来自第l-1层的输出而是前面所有层输出的拼接(concatenation)。用数学公式表示就是xₗ Hₗ([x₀, x₁, ..., xₙ₋₁])其中Hₗ通常由三个连续操作组成批量归一化(BN)、ReLU激活函数和3×3卷积。这种设计带来了几个显著优势梯度高速公路反向传播时梯度可以直接流向早期层极大缓解了梯度消失问题特征复用后续层可以自由选择使用前面任何层的特征组合参数效率每层只需产生少量特征图(k32)整体参数比传统CNN更少让我们用PyTorch代码定义一个基本的Dense Layerimport torch import torch.nn as nn class DenseLayer(nn.Module): def __init__(self, in_channels, growth_rate): super().__init__() self.bn nn.BatchNorm2d(in_channels) self.conv nn.Conv2d(in_channels, growth_rate, kernel_size3, padding1) def forward(self, x): out self.conv(F.relu(self.bn(x))) return torch.cat([x, out], dim1) # 沿通道维度拼接这个简单的层已经包含了DenseNet的核心逻辑——每个层都会接收所有前面层的特征并把自己的输出拼接到特征图上。growth_rate(通常设为32)控制每层产生的新特征图数量。2. DenseNet-121的完整架构实现DenseNet-121的完整结构包含4个Dense Block分别包含[6,12,24,16]个Dense Layer。让我们逐步构建每个组件2.1 初始卷积和池化层在进入第一个Dense Block之前需要对输入图像进行初步特征提取def __init__(self, growth_rate32, block_config(6,12,24,16)): super().__init__() # 初始卷积 (224x224x3 - 112x112x64) self.features nn.Sequential( nn.Conv2d(3, 64, kernel_size7, stride2, padding3), nn.BatchNorm2d(64), nn.ReLU(), nn.MaxPool2d(kernel_size3, stride2, padding1) )2.2 Dense Block与Transition Layer实现每个Dense Block后都跟着一个Transition Layer来降低特征图分辨率class DenseBlock(nn.Module): def __init__(self, num_layers, in_channels, growth_rate): super().__init__() self.layers nn.ModuleList() for i in range(num_layers): self.layers.append(DenseLayer(in_channels i*growth_rate, growth_rate)) def forward(self, x): for layer in self.layers: x layer(x) return x class TransitionLayer(nn.Module): def __init__(self, in_channels, compression0.5): super().__init__() out_channels int(in_channels * compression) self.bn nn.BatchNorm2d(in_channels) self.conv nn.Conv2d(in_channels, out_channels, kernel_size1) self.pool nn.AvgPool2d(2, stride2) def forward(self, x): return self.pool(self.conv(F.relu(self.bn(x))))2.3 完整网络组装现在我们可以组装完整的DenseNet-121def __init__(self, growth_rate32, block_config(6,12,24,16)): super().__init__() # ...初始卷积部分同上... # 添加Dense Blocks和Transition Layers num_channels 64 for i, num_layers in enumerate(block_config): block DenseBlock(num_layers, num_channels, growth_rate) self.features.add_module(fdense_block_{i1}, block) num_channels num_layers * growth_rate if i ! len(block_config)-1: # 最后一个block后不加transition trans TransitionLayer(num_channels) self.features.add_module(ftransition_{i1}, trans) num_channels int(num_channels * 0.5) # 分类头 self.classifier nn.Linear(num_channels, 1000)3. 通道数增长的动态可视化理解DenseNet的关键在于观察特征图通道数如何随着网络深度滚雪球式增长。让我们在forward函数中添加打印语句def forward(self, x): print(f输入形状: {x.shape}) x self.features[0](x) # 初始卷积 print(f初始卷积后: {x.shape}) for i in range(1, len(self.features)): x self.features[i](x) if isinstance(self.features[i], DenseBlock): print(fDenseBlock {i//21} 输出: {x.shape}) elif isinstance(self.features[i], TransitionLayer): print(fTransition {i//21} 后: {x.shape}) x F.adaptive_avg_pool2d(x, (1,1)) x torch.flatten(x, 1) return self.classifier(x)当输入224×224的RGB图像时输出将类似输入形状: torch.Size([1, 3, 224, 224]) 初始卷积后: torch.Size([1, 64, 56, 56]) DenseBlock 1 输出: torch.Size([1, 256, 56, 56]) # 64 6*32 Transition 1 后: torch.Size([1, 128, 28, 28]) DenseBlock 2 输出: torch.Size([1, 512, 28, 28]) # 128 12*32 Transition 2 后: torch.Size([1, 256, 14, 14]) DenseBlock 3 输出: torch.Size([1, 1024, 14, 14]) # 256 24*32 Transition 3 后: torch.Size([1, 512, 7, 7]) DenseBlock 4 输出: torch.Size([1, 1024, 7, 7]) # 512 16*324. 关键设计细节解析4.1 Bottleneck层的必要性随着Dense Block的深入通道数会线性增长。为了控制计算量原始论文在3×3卷积前添加了1×1卷积作为Bottleneckclass BottleneckDenseLayer(nn.Module): def __init__(self, in_channels, growth_rate, bn_size4): super().__init__() inter_channels bn_size * growth_rate self.bottleneck nn.Sequential( nn.BatchNorm2d(in_channels), nn.ReLU(), nn.Conv2d(in_channels, inter_channels, kernel_size1) ) self.conv nn.Conv2d(inter_channels, growth_rate, kernel_size3, padding1) def forward(self, x): return torch.cat([x, self.conv(self.bottleneck(x))], dim1)这种设计将计算复杂度从O(k²)降低到O(bn_size×k)其中bn_size通常设为4。4.2 Transition Layer的压缩因子Transition Layer中的压缩因子θ(默认0.5)进一步控制模型大小# 在TransitionLayer中 out_channels int(in_channels * compression) # compression0.5实验表明θ0.5能在保持性能的同时显著减少参数。4.3 与ResNet的对比虽然ResNet和DenseNet都致力于解决梯度消失问题但它们的连接方式有本质区别特性ResNetDenseNet连接方式逐层残差相加前面所有层特征拼接参数效率中等高特征复用间接直接梯度流动一条主路径多条并行路径典型k值64-51232DenseNet的这种设计使其在ImageNet上达到ResNet相当精度时参数减少约一半。5. 实战技巧与常见问题5.1 内存优化策略密集连接会显著增加GPU内存消耗。实践中可以采用以下优化梯度检查点只保存部分中间结果需要时重新计算from torch.utils.checkpoint import checkpoint x checkpoint(dense_block, x)更小的growth_rate如k24而非32配合更深的网络混合精度训练scaler torch.cuda.amp.GradScaler() with torch.cuda.amp.autocast(): outputs model(inputs)5.2 自定义DenseNet架构通过调整block_config可以创建不同规模的DenseNet# DenseNet-169 DenseNet(block_config(6,12,32,32)) # DenseNet-201 DenseNet(block_config(6,12,48,32))5.3 迁移学习调整当用于不同类别数的任务时model DenseNet() model.classifier nn.Linear(model.classifier.in_features, num_classes)在医疗影像等小样本场景中DenseNet通常比ResNet表现更好得益于其特征复用能力。

别再乱编译了！聊聊CentOS 8/RHEL 8里OpenSSL那个‘私有的’坑：EVP_KDF_ctrl

深入解析CentOS 8/RHEL 8中OpenSSL私有函数的兼容性陷阱当你在CentOS 8或RHEL 8系统中尝试自行编译安装OpenSSL时，可能会遇到一个令人困惑的错误：/lib64/libk5crypto.so.3: undefined symbol: EVP_KDF_ctrl, version OPENSSL_1_1_1b。这个看似简单的链接…

2026/6/6 7:48:13 阅读更多

IRS辅助MIMO系统保密速率优化Matlab仿真包：含坐标下降法实现与穷举对比

本文还有配套的精品资源，点击获取简介：一套即装即用的Matlab仿真资源，专注提升智能反射面（IRS）辅助下MIMO系统的物理层保密速率。核心采用坐标下降法，交替优化基站端预编码矩阵和IRS单元的相位响应矩阵…

2026/6/6 7:48:13 阅读更多

Kazhdan-Lusztig多项式与Bruhat序的几何与组合研究

1. Kazhdan-Lusztig多项式与Bruhat序的几何视角Kazhdan-Lusztig多项式（简称KL多项式）诞生于1979年David Kazhdan与George Lusztig关于Coxeter群表示理论的研究。这些多项式编码了对称群（更一般地，任意Coxeter群）中元素…

2026/6/6 7:47:33 阅读更多

小程序毕业设计-基于springboot+小程序的个人健康管理系统小程序(源码+LW+部署文档+全bao+远程调试+代码讲解等)

博主介绍：✌️码农一枚 ，专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围：&am…

2026/6/6 9:17:15 阅读更多

手把手教你用OpenCV搞定鱼眼相机标定：从Pinhole+RadTan到Omni+EQUI的实战踩坑记录

鱼眼相机标定实战指南：从原理到OpenCV代码实现鱼眼镜头在机器人导航、虚拟现实和全景拍摄等领域越来越普及，但这类镜头带来的严重畸变也给计算机视觉应用带来了挑战。上周我在为一个室内机器人项目标定鱼眼相机时，发现网上教程要么过于理论化…

2026/6/6 9:16:14 阅读更多

知识库系统(上) · 把个人经验变成“复利资产”！

目录概要积累能力积累能力的 3个核心技能 1. 需求判断：想清楚知识库要做什么 （1）用途：知识库具体用途，使用场景 （2）主题：一个小切口启动，再逐步扩展 &#xff…

2026/6/6 9:16:14 阅读更多

ABAP里AES加密的坑我都替你踩过了：PKCS7填充、CBC模式与字符串转换避坑指南

ABAP里AES加密的坑我都替你踩过了：PKCS7填充、CBC模式与字符串转换避坑指南在SAP系统集成开发中，AES加密是保障数据安全传输的常见手段。但ABAP实现AES时，开发者常会遇到加密结果与其他语言不一致、解密失败等诡异问题。本文将深入剖析ABAP中…

2026/6/6 9:16:14 阅读更多

在 Flutter 混合开发中，Android 原生层通知 Dart 界面更新状态

在 Flutter 混合开发中，Android 原生层通知 Dart 界面更新状态，主要通过 MethodChannel 的 invokeMethod 从原生调用 Dart，或者使用 EventChannel 建立持续的数据流。方案一：MethodChannel 单向通知（简单场景&#xff…

2026/6/6 9:14:53 阅读更多

当 Agent 开始“做事”：Anthropic 零信任白皮书释放了什么信号？

2026 年 5 月 27 日，Anthropic 发布了面向企业 AI Agent 部署的安全白皮书——《Zero Trust for AI Agents》。这份 34 页的文件罕见地没有鼓吹新技术，而是集中讨论一个长期被忽视的问题：当 AI Agent 拥有身份、工具、权限和自主执行能力之后…

2026/6/6 9:14:33 阅读更多

Windows下免安装凸轮轮廓生成工具：支持多种从动件与运动规律的本地化计算与DXF导出

本文还有配套的精品资源，点击获取简介：专为机械设计场景打造的便携式凸轮设计辅助工具，运行在Windows平台，无需安装、不写注册表、不联网，双击主程序即可启动。提供直动/摆动两类从动件类型（尖顶、滚子…

2026/6/6 0:00:44 阅读更多

DeepPCB数据集：3步构建高精度PCB缺陷检测AI系统

DeepPCB数据集：3步构建高精度PCB缺陷检测AI系统【免费下载链接】DeepPCB A PCB defect dataset. 项目地址: https://gitcode.com/gh_mirrors/de/DeepPCB 还在为PCB（印刷电路板）缺陷检测项目找不到高质量数据集而烦恼吗？面…

2026/6/6 0:01:04 阅读更多

Aimmy完全指南：5分钟掌握免费AI瞄准辅助工具，提升游戏操作体验

Aimmy完全指南：5分钟掌握免费AI瞄准辅助工具，提升游戏操作体验【免费下载链接】Aimmy Universal Second Eye for Gamers with Impairments (Universal AI Aim Aligner (AI Aimbot) - ONNX/YOLOv8 - C#) 项目地址: https://gitcode.com/gh_mirrors/ai/…

2026/6/6 0:04:06 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/5 9:28:46 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/6 8:10:10 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/5 9:28:45 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/5 9:28:45 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/5 9:28:42 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/5 9:28:45 阅读更多

相关文章

别再乱编译了！聊聊CentOS 8/RHEL 8里OpenSSL那个‘私有的’坑：EVP_KDF_ctrl

IRS辅助MIMO系统保密速率优化Matlab仿真包：含坐标下降法实现与穷举对比

Kazhdan-Lusztig多项式与Bruhat序的几何与组合研究

小程序毕业设计-基于springboot+小程序的个人健康管理系统小程序(源码+LW+部署文档+全bao+远程调试+代码讲解等)

手把手教你用OpenCV搞定鱼眼相机标定：从Pinhole+RadTan到Omni+EQUI的实战踩坑记录

知识库系统(上) · 把个人经验变成“复利资产”！

ABAP里AES加密的坑我都替你踩过了：PKCS7填充、CBC模式与字符串转换避坑指南

在 Flutter 混合开发中，Android 原生层通知 Dart 界面更新状态

当 Agent 开始“做事”：Anthropic 零信任白皮书释放了什么信号？

Windows下免安装凸轮轮廓生成工具：支持多种从动件与运动规律的本地化计算与DXF导出

DeepPCB数据集：3步构建高精度PCB缺陷检测AI系统

Aimmy完全指南：5分钟掌握免费AI瞄准辅助工具，提升游戏操作体验

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因