第四部分下经典卷积神经网络进阶随着计算能力GPU的提升和海量数据如 ImageNet的出现深度卷积神经网络在传统的 LeNet 基础上迎来了爆发演生出了一系列更深、更强大的网络架构。以下是三种具有里程碑意义的经典网络总结一、 AlexNet (2012年 ImageNet 冠军)AlexNet 证明了深层卷积神经网络在复杂图像分类百万级高分辨率图像、1000个类别上的巨大潜力。它的网络结构包含 5 层卷积层和 3 层全连接层参数量达到了惊人的约 6000 万。核心改进与创新引入 ReLU 激活函数替代了传统的 Sigmoid 或 Tanh 函数有效缓解了梯度消失问题大幅提升了网络的收敛速度。最大池化Max Pooling全面采用有重叠的最大池化操作代替平均池化能够更好地保留图像中显著的纹理和边缘特征。Dropout 正则化在全连接层中以一定的概率$p$随机“关闭”部分神经元强制网络学习更加独立和鲁棒的特征极大减轻了庞大参数带来的过拟合问题。数据增强Data Augmentation通过平移、随机裁剪Crop、水平翻转Flip、以及色彩扰动Color Jittering等方式极大地扩充了训练集数据量。双 GPU 并行训练创新性地使用两块 GPU 协同训练并限制它们仅在特定的层进行通信。二、 VGG-16 (2014年)VGG 网络将“深度”推向了全新的高度16-19层其核心理念是证明了更深的网络能够提取更丰富、更优异的特征。核心设计理念与普遍规律极致规整的微小卷积核抛弃了 AlexNet 中较大的卷积核如全部采用极小的卷积核步长为1并使用 same padding 以保持特征图大小。“按比例翻倍”的设计原则* 对于输出特征图尺寸相同的层保持相同数量的滤波器。每经过一次池化层导致特征图空间尺寸长宽减半时滤波器通道的数量直接翻倍。这保证了网络每一层的时间复杂度大致相同。特点与代价网络结构异常简洁优美特征提取能力极强。但代价是参数量极其庞大高达 1.38 亿且绝大部分参数集中在第一个全连接层。三、 ResNet 残差网络 (2015年)随着网络层数不断加深研究者发现了一个违背直觉的“网络退化Degradation”问题56 层的普通网络在训练集和测试集上的误差竟然都比 20 层网络还要高。这并不是因为过拟合而是由极深网络带来的梯度消失引起的。核心创新残差块Residual Block与捷径连接Shortcut / Skip Connection捷径连接ResNet 引入了一条跨越一到两层的捷径将前一层的输入 $x$ 直接传递并加到后面的输出端。拟合残差网络的映射从拟合原本的完整目标函数转变为拟合残差。最终的非线性激活输出变为为何有效如果网络中某一层已经达到了最优表示即无需额外的非线性变换网络只需要将该层残差的权重逼近于 0即可通过捷径轻松实现恒等映射Identity Mapping。巨大优势这种结构直接为梯度回传打通了“高速公路”彻底解决了深层网络的梯度消失顽疾。它使得训练成百上千层如 ResNet-50, ResNet-101, ResNet-152的极深网络成为现实并且其计算复杂度FLOPs甚至远低于结构较浅的 VGG 网络。第五部分深度学习视觉应用在掌握了卷积神经网络CNN的基础架构之后本周课程正式进入了深度学习在计算机视觉领域的实际应用重点探讨了目标检测任务及其主流算法。一、 计算机视觉常用数据集数据是驱动深度学习的核心。课程首先介绍了视觉领域几个具有里程碑意义的基础数据集MNIST内容包含 0~9 的手写数字灰度图像。地位深度学习的“Hello World”常用于验证算法的基础有效性。PASCAL VOC内容包含 20 个常见类别的真实场景图像。任务提供了图像分类、目标检测、图像分割等任务的标准标注。MS COCO (Microsoft Common Objects in Context)内容大规模的目标检测、分割和图像描述数据集包含复杂的日常场景。特点目标数量多、尺寸变化大、存在严重遮挡是目前检验目标检测算法性能最权威的标尺。ImageNet内容包含超过 1400 万张图像、1000 个类别的庞大数据库。地位ILSVRC 竞赛的数据基础直接推动了 AlexNet、VGG、ResNet 等经典网络的诞生。二、 目标检测任务的核心评价指标与单纯的“图像分类Image Classification”不同“目标检测Object Detection”不仅需要知道图像中“有什么分类”还需要知道它们“在哪里定位”。因此需要一套更为严谨的评价指标。1. 基础指标Precision精确率与 Recall召回率Precision精确率模型预测为正样本的框中真正是正样本的比例。即“找得对不对”Recall召回率所有的真实正样本中被模型成功预测出来的比例。即“找得全不全”注两者往往是相互制约的提高召回率通常会导致精确率下降。2. P-R 曲线与 APAverage Precision平均精度P-R 曲线以 Recall 为横坐标Precision 为纵坐标绘制的曲线展示了模型在不同置信度阈值下的表现。AP 计算AP 的值即为P-R 曲线下方的面积。面积越接近 1说明该模型在当前类别上的检测性能越好。3. mAPmean Average Precision平均精度均值实际的目标检测任务往往包含多个类别。计算方法对所有类别的 AP 值求算术平均。地位mAP 是衡量目标检测模型综合性能最核心、最直观的指标。三、 目标检测与 YOLO 算法传统的目标检测算法如 R-CNN 系列的“两阶段”算法通常先提取候选区域Region Proposals再进行分类速度较慢。而YOLOYou Only Look Once开创了“单阶段One-Stage”检测的先河。1. YOLO 的核心思想将检测转化为回归问题YOLO 放弃了繁琐的候选区域提取步骤直接将目标检测任务看作是一个单一的空间空间回归问题Regression Problem。只需要将图像输入神经网络一次Only Look Once就能直接在输出层同时得到所有目标的边界框坐标Bounding Boxes以及它们对应的类别概率Class Probabilities。2. YOLO 的基本工作流程网格划分将输入图像划分成的网格Grid。网格职责如果某个目标的中心点落在了某个网格内该网格就负责预测这个目标。输出预测每个网格需要预测个边界框包含中心坐标和宽高每个框的置信度Confidence以及个类别的条件概率。后处理使用NMS非极大值抑制Non-Maximum Suppression算法去除对同一目标的重复预测框保留得分最高的边界框。3. YOLO 的优缺点总结优点极速Fast由于是单阶段网络没有复杂的提交流程检测速度极快能够满足实时检测需求。全局视野在预测时能够利用全图的上下文信息背景误检率False Positives相对较低。缺点对密集的小目标检测效果较差因为一个网格通常只能预测有限数量的目标。边界框的定位精度不如两阶段算法如 Faster R-CNN。
神经网络与深度学习课程总结二
发布时间:2026/5/25 7:39:09
第四部分下经典卷积神经网络进阶随着计算能力GPU的提升和海量数据如 ImageNet的出现深度卷积神经网络在传统的 LeNet 基础上迎来了爆发演生出了一系列更深、更强大的网络架构。以下是三种具有里程碑意义的经典网络总结一、 AlexNet (2012年 ImageNet 冠军)AlexNet 证明了深层卷积神经网络在复杂图像分类百万级高分辨率图像、1000个类别上的巨大潜力。它的网络结构包含 5 层卷积层和 3 层全连接层参数量达到了惊人的约 6000 万。核心改进与创新引入 ReLU 激活函数替代了传统的 Sigmoid 或 Tanh 函数有效缓解了梯度消失问题大幅提升了网络的收敛速度。最大池化Max Pooling全面采用有重叠的最大池化操作代替平均池化能够更好地保留图像中显著的纹理和边缘特征。Dropout 正则化在全连接层中以一定的概率$p$随机“关闭”部分神经元强制网络学习更加独立和鲁棒的特征极大减轻了庞大参数带来的过拟合问题。数据增强Data Augmentation通过平移、随机裁剪Crop、水平翻转Flip、以及色彩扰动Color Jittering等方式极大地扩充了训练集数据量。双 GPU 并行训练创新性地使用两块 GPU 协同训练并限制它们仅在特定的层进行通信。二、 VGG-16 (2014年)VGG 网络将“深度”推向了全新的高度16-19层其核心理念是证明了更深的网络能够提取更丰富、更优异的特征。核心设计理念与普遍规律极致规整的微小卷积核抛弃了 AlexNet 中较大的卷积核如全部采用极小的卷积核步长为1并使用 same padding 以保持特征图大小。“按比例翻倍”的设计原则* 对于输出特征图尺寸相同的层保持相同数量的滤波器。每经过一次池化层导致特征图空间尺寸长宽减半时滤波器通道的数量直接翻倍。这保证了网络每一层的时间复杂度大致相同。特点与代价网络结构异常简洁优美特征提取能力极强。但代价是参数量极其庞大高达 1.38 亿且绝大部分参数集中在第一个全连接层。三、 ResNet 残差网络 (2015年)随着网络层数不断加深研究者发现了一个违背直觉的“网络退化Degradation”问题56 层的普通网络在训练集和测试集上的误差竟然都比 20 层网络还要高。这并不是因为过拟合而是由极深网络带来的梯度消失引起的。核心创新残差块Residual Block与捷径连接Shortcut / Skip Connection捷径连接ResNet 引入了一条跨越一到两层的捷径将前一层的输入 $x$ 直接传递并加到后面的输出端。拟合残差网络的映射从拟合原本的完整目标函数转变为拟合残差。最终的非线性激活输出变为为何有效如果网络中某一层已经达到了最优表示即无需额外的非线性变换网络只需要将该层残差的权重逼近于 0即可通过捷径轻松实现恒等映射Identity Mapping。巨大优势这种结构直接为梯度回传打通了“高速公路”彻底解决了深层网络的梯度消失顽疾。它使得训练成百上千层如 ResNet-50, ResNet-101, ResNet-152的极深网络成为现实并且其计算复杂度FLOPs甚至远低于结构较浅的 VGG 网络。第五部分深度学习视觉应用在掌握了卷积神经网络CNN的基础架构之后本周课程正式进入了深度学习在计算机视觉领域的实际应用重点探讨了目标检测任务及其主流算法。一、 计算机视觉常用数据集数据是驱动深度学习的核心。课程首先介绍了视觉领域几个具有里程碑意义的基础数据集MNIST内容包含 0~9 的手写数字灰度图像。地位深度学习的“Hello World”常用于验证算法的基础有效性。PASCAL VOC内容包含 20 个常见类别的真实场景图像。任务提供了图像分类、目标检测、图像分割等任务的标准标注。MS COCO (Microsoft Common Objects in Context)内容大规模的目标检测、分割和图像描述数据集包含复杂的日常场景。特点目标数量多、尺寸变化大、存在严重遮挡是目前检验目标检测算法性能最权威的标尺。ImageNet内容包含超过 1400 万张图像、1000 个类别的庞大数据库。地位ILSVRC 竞赛的数据基础直接推动了 AlexNet、VGG、ResNet 等经典网络的诞生。二、 目标检测任务的核心评价指标与单纯的“图像分类Image Classification”不同“目标检测Object Detection”不仅需要知道图像中“有什么分类”还需要知道它们“在哪里定位”。因此需要一套更为严谨的评价指标。1. 基础指标Precision精确率与 Recall召回率Precision精确率模型预测为正样本的框中真正是正样本的比例。即“找得对不对”Recall召回率所有的真实正样本中被模型成功预测出来的比例。即“找得全不全”注两者往往是相互制约的提高召回率通常会导致精确率下降。2. P-R 曲线与 APAverage Precision平均精度P-R 曲线以 Recall 为横坐标Precision 为纵坐标绘制的曲线展示了模型在不同置信度阈值下的表现。AP 计算AP 的值即为P-R 曲线下方的面积。面积越接近 1说明该模型在当前类别上的检测性能越好。3. mAPmean Average Precision平均精度均值实际的目标检测任务往往包含多个类别。计算方法对所有类别的 AP 值求算术平均。地位mAP 是衡量目标检测模型综合性能最核心、最直观的指标。三、 目标检测与 YOLO 算法传统的目标检测算法如 R-CNN 系列的“两阶段”算法通常先提取候选区域Region Proposals再进行分类速度较慢。而YOLOYou Only Look Once开创了“单阶段One-Stage”检测的先河。1. YOLO 的核心思想将检测转化为回归问题YOLO 放弃了繁琐的候选区域提取步骤直接将目标检测任务看作是一个单一的空间空间回归问题Regression Problem。只需要将图像输入神经网络一次Only Look Once就能直接在输出层同时得到所有目标的边界框坐标Bounding Boxes以及它们对应的类别概率Class Probabilities。2. YOLO 的基本工作流程网格划分将输入图像划分成的网格Grid。网格职责如果某个目标的中心点落在了某个网格内该网格就负责预测这个目标。输出预测每个网格需要预测个边界框包含中心坐标和宽高每个框的置信度Confidence以及个类别的条件概率。后处理使用NMS非极大值抑制Non-Maximum Suppression算法去除对同一目标的重复预测框保留得分最高的边界框。3. YOLO 的优缺点总结优点极速Fast由于是单阶段网络没有复杂的提交流程检测速度极快能够满足实时检测需求。全局视野在预测时能够利用全图的上下文信息背景误检率False Positives相对较低。缺点对密集的小目标检测效果较差因为一个网格通常只能预测有限数量的目标。边界框的定位精度不如两阶段算法如 Faster R-CNN。