深度学习笔记--CNN卷积网络 + CNN自编码器

发布时间：2026/6/27 12:07:47

深度学习视觉基础学习笔记CNN卷积网络 CNN自编码器前言本周基于两层神经网络、反向传播、梯度校验等前置知识系统学习两大基础视觉模型CNN有监督图像分类网络、CNN-Based AutoEncoder无监督自编码器。第一部分 CNN卷积神经网络理论详解一、CNN诞生背景为什么不用全连接网络之前两层全连接网络处理图像时会把二维图片直接拉成一维向量完全丢失图片空间位置、局部纹理、边缘关联信息模型泛化差、极易过拟合。CNN引入卷积操作保留图像二维空间结构只提取局部特征参数量更少、泛化能力更强是所有计算机视觉网络底层基础。二、CNN全部基础模块详细原理1. 卷积层 Conv2d核心特征提取模块核心作用使用固定尺寸卷积核滑动遍历整张图像提取局部特征。浅层卷积提取边缘、线条深层卷积提取轮廓、整体形状。关键参数in_channels输入通道灰度图1RGB彩色图3out_channels输出特征图数量代表提取多少类不同特征kernel_size卷积核尺寸常用3×3小核轻量化、效果好padding边缘补0padding1可保证卷积后图片长宽不变避免丢失边缘像素特征stride滑动步长步长越大输出尺寸越小。输出尺寸计算公式OutputInput−Kernel2×PaddingStride1Output\frac{Input - Kernel 2\times Padding}{Stride}1OutputStrideInput−Kernel2×Padding12. 池化层 MaxPool2d下采样压缩作用缩小特征图长宽减少参数量、降低计算开销保留区域内最显著特征抑制过拟合。最大池化原理取窗口内像素最大值保留纹理、轮廓关键信息无可训练权重仅做数据压缩。实操规律池化stride2图片长宽直接缩小一半。3. ReLU激活函数引入非线性公式f(x)max(0,x)f(x)max(0,x)f(x)max(0,x)若网络无激活函数多层卷积叠加等价于单层线性运算无法拟合手写数字这类非线性数据。ReLU将负数置0赋予网络非线性拟合能力同时缓解深层梯度消失。4. BN批量归一化 BatchNorm2d每一层卷积输出数据分布会不断偏移导致训练收敛慢。BN对特征标准化统一数据分布大幅加快模型收敛速度降低学习率调参难度。标准堆叠顺序Conv → BN → ReLU。5. ResNet残差基础概念拓展知识点单纯堆叠多层卷积会出现网络退化网络越深精度反而下降、梯度消失。残差短路连接直接跨层传递原始特征让网络只学习残差映射支撑深层网络稳定训练是后续U-Net、YOLO标配结构。三、CNN完整训练逻辑MNIST手写数字分类数据预处理图像转为张量、像素归一化划分训练集/测试集批量打乱加载网络前向传播卷积提取特征→池化压缩→展平→全连接输出10类数字预测值损失函数交叉熵CrossEntropyLoss计算预测类别与真实标签差距标准训练五步循环梯度清零→前向传播计算预测→计算损失→反向传播求梯度→优化器更新卷积、全连接权重训练现象10轮迭代后训练损失持续下降测试准确率最高99.09%卷积网络效果远优于纯全连接网络。四、CNN实操问题汇总代码结构错误网络类内部写入模型初始化代码执行时报类未定义维度报错卷积通道、池化后特征尺寸计算错误全连接输入维度不匹配绘图警告Matplotlib无中文字体图表中文显示方框乱码环境报错Anaconda与PyTorch OpenMP库冲突程序运行终止。第二部分 CNN自编码器 AutoEncoder 完整理论一、自编码器定位与核心特点任务类型无监督学习不需要图像标签仅使用原图作为监督信号搭建基础完全基于CNN卷积、池化、上采样组件搭建核心目标学习图像压缩与重建两大落地任务图像去噪、图像降维。二、三大核心结构编码器Encoder、隐向量Latent、解码器Decoder1. 编码器 Encoder压缩模块由卷积层最大池化堆叠组成持续缩小图像长宽、压缩通道数将高维图像映射为极低维度的latent隐向量。单张28×28灰度原图原始维度28×28784维经过编码器压缩至32维隐向量实现图像轻量化存储。2. Latent隐向量图像压缩特征隐向量是整张图片的抽象低维表征存储图片核心轮廓、纹理信息剔除冗余像素。超参数规律隐向量维度设置越小压缩程度越高但丢失细节越多重建图像会模糊。3. 解码器 Decoder还原重建模块由上采样Upsample卷积层堆叠与编码器结构对称。上采样放大特征图尺寸逐步恢复图像长宽最后一层使用Sigmoid激活将输出像素限制在0~1和原图像素范围匹配。三、损失函数MSE均方误差逐像素计算重建图像与原始干净图像的差值模型训练目标是不断缩小MSE损失让重建图片无限接近原图。计算公式Loss1n∑i1n(y^i−yi)2Loss\frac{1}{n}\sum_{i1}^n (\hat{y}_i-y_i)^2Lossn1∑i1n(y^i−yi)2四、两大实操任务理论原理任务1图像去噪训练阶段给干净手写数字添加高斯噪声将带噪图片输入编码器以原始无噪声图片为标签训练。模型学习过滤随机噪声仅保留数字核心特征推理时输入任意带噪图像即可输出清晰降噪图像。任务2图像降维重建不添加噪声直接输入原图压缩为低维隐向量再通过解码器还原图像。验证逻辑极低维度隐向量仍可还原清晰数字证明隐向量完整保存图像关键特征可用于图像数据压缩、特征检索。五、自编码器训练流程数据集复用MNIST灰度图简化预处理不做标准化方便添加噪声搭建对称编解码CNN结构分开定义压缩、还原模块训练20轮每轮输入噪声图片以干净原图为优化目标训练完成后可视化三组对比图原图、噪声图、降噪重建图原图、降维重建图。六、实操踩坑完整总结解码器未加Sigmoid输出像素超出0~1区间重建图像发黑、发白损失震荡不收敛上采样通道不匹配解码器卷积输出通道与输入灰度图通道不一致直接维度报错GPU张量绘图未将张量转移至CPU绘图代码运行失败隐向量维度过小图像细节丢失重建结果模糊。第三部分 CNN与AutoEncoder核心理论对比网络学习类型是否需要标签核心目标核心结构CNN分类网络有监督学习需要类别标签区分不同图像类别卷积池化全连接输出分类结果AutoEncoder自编码器无监督学习无需标签只用原图图像压缩、降噪重建编码器压缩解码器重建输出还原图像第四部分本周整体知识收获打通图像网络底层逻辑理解卷积提取空间特征的优势掌握卷积、池化、BN、激活全套算子原理分清有监督、无监督视觉模型差异吃透自编码器编解码、隐向量完整理论熟练掌握深度学习标准训练流程能独立处理环境冲突、维度、绘图等各类代码报错搭建浅层视觉网络完整知识框架为下周U-Net分割、YOLO检测、RNN时序网络打好理论基础。第五部分当前现存问题下周学习规划现存学习问题隐向量维度对图像重建效果的影响缺少定量调参对比实验调参经验不足深层网络超参数学习率、卷积通道数调试经验欠缺。下周学习计划U-Net学习对称编解码、跳跃连接、上采样、语义分割原理完成医学影像分割实验YOLOv5/v8掌握多尺度检测、锚框、检测损失、实时推理完成自定义物体识别RNN/LSTM/GRU学习循环单元、门控机制解决时序梯度消失完成文本、时序预测整合本周CNN、自编码器全部代码、实验结果、笔记整理完整学习文档。

为什么你的IDEA永远连不上Tomcat？资深运维总监曝光内部日志分析模板（含12个关键报错对照表）

更多请点击： https://codechina.net 第一章：为什么你的IDEA永远连不上Tomcat？资深运维总监曝光内部日志分析模板（含12个关键报错对照表） IDEA 无法连接 Tomcat 的根本原因，90% 源于开发环境与容器运行时上…

2026/6/27 12:07:47 阅读更多

Photoshop AI插件SD-PPP：如何让创意设计效率提升500%？

Photoshop AI插件SD-PPP：如何让创意设计效率提升500%？ 【免费下载链接】sd-ppp A Photoshop AI plugin 项目地址: https://gitcode.com/gh_mirrors/sd/sd-ppp 还在为Photoshop与AI绘图工具之间的频繁切换而烦恼吗？SD-PPP插件为您带来革…

2026/6/27 12:05:21 阅读更多

如何在Photoshop中免费实现AI绘图？SD-PPP插件终极指南

如何在Photoshop中免费实现AI绘图？SD-PPP插件终极指南【免费下载链接】sd-ppp A Photoshop AI plugin 项目地址: https://gitcode.com/gh_mirrors/sd/sd-ppp 还在为Photoshop与AI绘图工具之间的频繁切换而烦恼吗？SD-PPP插件为您带来革命性的解决…

2026/6/27 12:05:00 阅读更多

ESP32-S3音频报错问题排查与环境变量设置

1. ESP32-S3开发板音频报错问题深度解析最近在使用立创实战派ESP32-S3开发板时遇到了一个棘手的音频报错问题。作为长期使用esp-idf v5.3进行开发的工程师，这个问题困扰了我好几天。通过深入排查，最终发现是一个环境变量设置问题导致的兼容性问题。下面…

2026/6/27 13:54:12 阅读更多

ESP32-S3开发板编译报错解决方案与优化指南

1. 问题现象与背景说明最近在调试立创实战派ESP32-S3开发板时，使用esp-idf v5.3版本遇到了编译报错问题。具体表现为在menuconfig配置完成后执行编译命令时，系统提示"未知的芯片版本"错误。这个开发板作为国产开源硬件的代表作品，…

2026/6/27 13:51:45 阅读更多

Java工程师晋升必过门槛：IDEA中Alibaba规约插件的3层校验机制与自定义规则扩展实战

更多请点击： https://kaifayun.com 第一章：IDEA Alibaba Java Coding Guidelines插件概览 Alibaba Java Coding Guidelines 是阿里巴巴集团开源的 Java 代码规范检查工具，其 IntelliJ IDEA 插件通过静态代码分析，帮助开发者在编码…

2026/6/27 13:51:45 阅读更多

鸣潮自动化工具终极指南：3步实现游戏挂机，解放双手轻松刷资源

鸣潮自动化工具终极指南：3步实现游戏挂机，解放双手轻松刷资源【免费下载链接】ok-wuthering-waves 鸣潮后台自动战斗自动刷声骸一键日常 Automation for Wuthering Waves 项目地址: https://gitcode.com/GitHub_Trending/ok/ok-wuthering-waves …

2026/6/27 13:51:23 阅读更多

告别手动getter/setter！IDEA + Lombok自动化开发流水线搭建（含CI/CD阶段注解校验与SonarQube集成）

更多请点击： https://intelliparadigm.com 第一章：告别手动getter/setter！IDEA Lombok自动化开发流水线搭建（含CI/CD阶段注解校验与SonarQube集成） 环境准备与Lombok基础集成在IntelliJ IDEA中启用Lombok支持需完成…

2026/6/27 13:51:03 阅读更多

低成本一氧化碳检测装置：LoRa+4G远程监控方案

1. 项目背景与核心价值去年冬天帮老家改造煤炉房时，发现市面上的一氧化碳报警器要么功能单一，要么价格昂贵。这促使我萌生了开发一款低成本、可远程监控的一氧化碳检测装置的想法。这个开源项目结合了4G通信和LoRa技术，实现了以下核心功能&am…

2026/6/27 13:50:42 阅读更多

千问AI眼镜：阿里AI战略急先锋，能否在激烈竞争中突围？

千问眼镜：销量第一背后的挑战不久前，不少第三方统计机构给千问背书，甚至给出全国销量第一的统计结果。这个第一的含金量有多高？暂且先打个问号。但这些榜单至少说明，千问眼镜延续了阿里AI战略整体偏激进的风格&#xf…

2026/6/27 0:01:13 阅读更多

Tomcat中X-Frame-Options配置实战：防御点击劫持的四种方法与最佳实践

1. 项目概述：为什么X-Frame-Options是Web安全的“防盗门”？最近在排查一个老项目的安全审计报告时，又被提到了“点击劫持”风险，矛头直指缺失的X-Frame-Options响应头。这已经不是第一次了，很多开发团队，尤…

2026/6/27 0:01:34 阅读更多

10分钟AI语音克隆与实时变声：Retrieval-based-Voice-Conversion-WebUI完整指南

10分钟AI语音克隆与实时变声：Retrieval-based-Voice-Conversion-WebUI完整指南【免费下载链接】Retrieval-based-Voice-Conversion-WebUI Easily train a good VC model with voice data < 10 mins! 项目地址: https://gitcode.com/GitHub_Trending/re/Retrie…

2026/6/27 0:04:02 阅读更多

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”，而是Google埋下的第一道技术门槛你看到标题里那个醒目的“$300美金”时，第一反应可能是：又一个免费额度？领完就完事？我亲手试过——这300美金根本不是红包，而是一张入场券&…

2026/6/27 1:16:50 阅读更多

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程【免费下载链接】diff-pdf A simple tool for visually comparing two PDF files 项目地址: https://gitcode.com/gh_mirrors/di/diff-pdf 还在为PDF文档的版本对比而烦恼吗？diff-pdf这款开…

2026/6/27 1:16:49 阅读更多

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件：从原理到实战的深度解析在嵌入式系统开发中，图形用户界面（GUI）的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台，嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/27 1:16:48 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/27 12:47:04 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/27 13:25:14 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/27 13:25:16 阅读更多

相关文章