神经网络与深度学习第3周课程总结

发布时间：2026/5/25 23:20:26

深度学习视觉应用课程总结一、常用计算机视觉数据集数据集名称发布方/年份规模图像规格类别数主要用途核心特点MNIST美国国家标准与技术研究院60k训练10k测试28×28灰度图10类(0-9手写数字)入门级图像分类最经典的手写数字识别基准数据集Fashion-MNISTZalando(2017)60k训练10k测试28×28灰度图10类(服装商品)图像分类算法测试MNIST的直接替代品无需修改代码即可使用CIFAR-10加拿大高级研究所50k训练10k测试32×32彩色图10类(飞机、汽车等)彩色图像分类分为5个训练批次和1个测试批次每类样本均衡PASCAL VOC 2012欧盟PASCAL项目11540张图像27450个标注对象彩色JPEG图20类(人、动物、交通工具等)目标检测、语义分割目标检测领域的经典基准提供XML格式标注MS COCO微软(2014)33万张图20万张有标注150万个个体彩色图80类(日常场景物体)目标检测、实例分割、场景理解ImageNet竞赛停办后最权威的目标检测基准ImageNet李飞飞团队(2009)1419万张图103万张有标注框彩色图21841类大规模图像分类、预训练推动了深度学习在计算机视觉领域的爆发JFT-300MGoogle(内部)3亿张图10亿个标签彩色图多标签超大规模图像分类预训练标签精度高用于训练顶级图像分类模型二、视觉任务核心评价指标2.1 混淆矩阵混淆矩阵是评估分类模型性能的基础工具展示了模型预测结果与真实标签之间的对应关系。预测值正例预测值负例真实值正例TP(真正例)FN(假负例)真实值负例FP(假正例)TN(真负例)TP:真正例(true positive)即真实结果和预测结果都是正例。FP:假正例(false positive),即真实结果是反例预测结果是正例。TN:真反例(true negative),即真实结果和预测结果都是反例。FN:假反例(false negative),即真实结果是正例预测结果是反例。2.2 基础指标定义指标名称计算公式物理意义特点查准率(Precision)PTPTPFPP \frac{TP}{TPFP}PTPFPTP预测为正的样本中真正正样本的比例衡量模型不把负样本判为正样本的能力值越高越挑剔查全率(Recall)RTPTPFNR \frac{TP}{TPFN}RTPFNTP所有真正正样本中被正确识别的比例衡量模型不漏掉正样本的能力值越高越全面准确率(Accuracy)AccuracyTPTNTPFPTNFNAccuracy \frac{TPTN}{TPFPTNFN}AccuracyTPFPTNFNTPTN整体预测正确的样本比例适用于样本均衡的情况样本不均衡时会产生误导2.3 进阶指标精确率和召回率之间存在天然的权衡关系提高阈值会增加精确率但降低召回率降低阈值则相反。P-R曲线直观地展示了这种权衡关系。P-R曲线评价原则(1) 若一个学习模型的P-R曲线完全包住了另一个学习模型的P-R曲线则前者的性能优于后者。即召回率相同的情况下查准率越高模型的泛化性能越好。简而言之曲线越向右上模型越好。(2) 若两个学习模型的P-R曲线互相交叉则可通过平衡点Break-Event Point,简称BEP)来评价模型的优劣BEP是查准率查全率的数值。F1分数F12PRPRF1 \frac{2PR}{PR}F1PR2PRF1分数F1 Score是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的查准率和查全率。F1分数可以看作是模型精确率和召回率的一种调和平均它的最大值是1最小值是0。由于BEP过于简化更常用的是F1度量F1越大性能越好。平均精度(AP)与平均平均精度(mAP)平均精度(AP)P-R曲线下的面积综合衡量单个类别的检测性能AP∑k1NP(k)Δr(k)AP \sum_{k1}^{N} P(k) \Delta r(k)APk1∑NP(k)Δr(k)其中P(k)P(k)P(k)是识别出k个图片时的精确率Δr(k)\Delta r(k)Δr(k)是召回率从k-1到k的变化量平均平均精度(mAP)多类别检测任务中所有类别AP的平均值是目标检测任务最常用的综合评价指标三、目标检测与YOLO3.1 目标检测定义、痛点、传统求解思路的瓶颈任务定义在给定图片中同时解决两个问题“是什么”识别图像中物体的类别“在哪里”用边界框精确标注物体的位置核心痛点物体尺寸变化范围大物体摆放角度和姿态不定物体可出现在图片任何位置一张图片可能包含多个不同类别的物体传统求解思路的瓶颈滑动窗口法在图像上滑动不同大小的窗口对每个窗口进行分类计算量巨大手工特征提取依赖人工设计的特征(如SIFT、HOG)表达能力有限泛化性差3.2 技术发展(两阶段)目标检测技术经历了从两阶段到单阶段的发展过程R-CNN(2014)首次将深度学习引入目标检测使用选择性搜索生成候选区域然后对每个区域进行分类SPP-NET(2014)引入空间金字塔池化层解决了R-CNN中需要将候选区域裁剪到固定大小的问题Fast R-CNN(2015)将特征提取和分类整合到一个网络中大幅提高了检测速度Faster R-CNN(2015)用区域建议网络(RPN)替代选择性搜索实现了端到端的训练成为两阶段检测的经典框架3.3 YOLO核心(单阶段)全称You Only Look Once优势检测速度极快适合实时应用端到端训练结构简单能学习到更通用的图像特征核心思想与两阶段方法不同将目标检测转化为回归问题通过一次前向传播同时预测多个边界框和类别概率网格化预测输入图像被划分为S×SS \times SS×S的网格若目标的中心落在某个网格内该网格就负责预测该目标。张量输出每个网格预测BBB个边界框及置信度以及CCC个类别概率最终输出尺寸为S×S×(B×5C)S \times S \times (B \times 5 C)S×S×(B×5C)的张量。损失函数解构YOLO的损失函数综合了边界框坐标误差均方误差、置信度误差以及分类误差。为了平衡大小目标的定位偏差YOLO对宽高求平方根后再计算误差。YOLO极大地提升了推理速度奠定了其在实时工程任务中的统治地位。四、全卷积网络与语义分割4.1 语义分割与实例分割语义分割对图像中的每个像素进行分类将图像划分为不同的语义区域同一类别的像素被标记为相同的标签实例分割在语义分割的基础上进一步区分同一类别的不同个体4.2 核心方法对比方法提出时间核心思想主要特点适用场景FCN(全卷积网络)2015年将传统CNN中的全连接层替换为卷积层实现端到端的像素级预测语义分割领域的开创性工作首次实现了任意尺寸图像的输入输出入门级语义分割任务教学演示DeepLab v32017年引入空洞卷积和空间金字塔池化(ASPP)多尺度捕捉上下文信息精度高鲁棒性强是目前工业界广泛使用的语义分割方法高精度语义分割需求自动驾驶、医学影像等五、总结5.1 逻辑脉络深度学习视觉应用 ├── 数据基础常用计算机视觉数据集 │ ├── 入门级MNIST、Fashion-MNIST、CIFAR-10 │ ├── 经典基准PASCAL VOC、MS COCO │ └── 大规模预训练ImageNet、JFT-300M ├── 评价体系视觉任务核心评价指标 │ ├── 基础混淆矩阵、精确率、召回率、准确率 │ └── 进阶P-R曲线、AP、mAP ├── 目标检测从两阶段到单阶段 │ ├── 任务定义与痛点 │ ├── 两阶段发展R-CNN → SPP-NET → Fast R-CNN → Faster R-CNN │ └── 单阶段代表YOLO └── 语义分割像素级图像理解 ├── 任务定义语义分割 vs 实例分割 └── 核心方法FCN(经典) vs DeepLab v3(主流)5.2 总结数据是基础不同规模和类型的数据集为不同视觉任务提供了训练和评估的基准从简单的手写数字识别到复杂的场景理解数据集的发展推动了算法的进步。评价是标尺精确率、召回率、AP、mAP等指标构成了客观评估视觉算法性能的标准体系帮助研究者和工程师量化模型效果并进行改进。算法是核心目标检测从两阶段的R-CNN系列发展到单阶段的YOLO实现了速度和精度的平衡满足了实时应用的需求语义分割从FCN的开创性工作发展到DeepLab v3的成熟应用实现了像素级的图像理解

2026会计人员能力及学习提升方向指导

引言在财务数字化转型的宏观背景下，会计行业正经历深刻变革。传统以凭证、账簿、报表为核心的工作模式，逐步与大数据技术、智能分析工具及自动化系统相融合。在这一转变中，数据分析能力正成为会计人员知识结构的重要组成。例如，CD…

2026/5/25 23:20:06 阅读更多

CANoe诊断测试没CDD文件怎么办？手把手教你用Fault Memory窗口和CAPL脚本读取解析DTC故障码

CANoe诊断测试无CDD文件的实战解决方案：从Fault Memory到CAPL脚本全解析当CDD文件缺失或定义不清晰时，诊断测试工程师常常陷入困境。本文将深入探讨如何利用Fault Memory窗口的基础功能，并通过CAPL脚本实现更灵活、更强大的故障码读取与解析方…

2026/5/25 23:15:20 阅读更多

如何在5分钟内完成B站视频格式转换：m4s转MP4完整指南

如何在5分钟内完成B站视频格式转换：m4s转MP4完整指南【免费下载链接】m4s-converter 一个跨平台小工具，将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 你是否曾遇到过这样的困境&…

2026/5/25 23:15:00 阅读更多

搞定这 5 个全栈电商项目，面试别再用 Todo-List 凑数了

找独立开发练手项目或者写简历项目时，最忌讳两件事：一是太简单（纯前端 Mock 数据，点两下就没了），二是太假（一上来就硬套微服务、消息队列、高并发，结果自己根本Hold不住）…

2026/5/26 0:19:44 阅读更多

强化学习优化代码生成：环境插桩与自改进策略实践

1. 项目概述：当强化学习遇上代码生成在机器学习社区，尤其是Kaggle这类数据科学竞赛平台上，我们经常面临一个经典困境：给定一个任务描述和数据集，如何快速、自动地生成一个高性能的解决方案代码？传统方法要么…

2026/5/26 0:18:44 阅读更多

PCB虚焊/走线断裂/焊盘脱落工程师易漏判

PCB 故障中，30% 并非元件损坏，而是 PCB 本身的隐性故障—— 虚焊、走线断裂、焊盘脱落、过孔开路。这类故障外观隐蔽、时好时坏、排查难度大，很多工程师反复更换元件仍无法解决，最终误判为 “板报废”。一、PCB 隐性故障核心成因…

2026/5/26 0:17:43 阅读更多

破局数据中台建而不用：2026 五大数据治理平台全维度评测

引言数据中台的建设热潮之后，一个略显棘手的问题摆在企业面前：平台搭好了，数据接进来了，但业务部门依然抱怨“数据不好用”。指标口径对不齐、临时取数排期两周、质量报告上红黄灯一片——这些场景在不少企业的数字化转型进程中反…

2026/5/26 0:17:23 阅读更多

从零开始玩转无名杀：三国杀开源版终极入门指南

从零开始玩转无名杀：三国杀开源版终极入门指南【免费下载链接】noname 项目地址: https://gitcode.com/GitHub_Trending/no/noname 你是否曾想过，如果能随时随地来一局经典的三国杀对局该有多好？现在，这个梦想已经实现了…

2026/5/26 0:17:23 阅读更多

【AI 自动化工具】OpenClaw 快速部署指南（包含安装包）

Windows 一键部署 OpenClaw 教程｜5 分钟搞定本地 AI 智能体，告别复杂配置适配系统：Windows10/11 64 位当前版本：v2.7.5（虾壳云版）核心亮点：零代码门槛｜全程可视化｜无需…

2026/5/26 0:16:42 阅读更多

Claude Code Skill动态发现机制全解析：为什么你的AI会自动执行代码

文章目录前言一、那个让我怀疑AI成精的自动commit事件二、静态注入：Claude偷偷给模型塞的小纸条三、Skill工具：模型自己给自己发指令的自导自演四、动态注入：Skill集合变了怎么办？五、语义匹配注入：当Skill多到烧不起t…

2026/5/26 0:00:17 阅读更多

ssm高校普法系统（10101）

有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码SQL脚本）配套文档（LWPPT开题报告/任务书）远程调试控屏包运行一键启动项目&…

2026/5/26 0:01:18 阅读更多

强化学习策略参数调节方法及值迭代算法实现 CS188 Proj3 学习笔记

强烈推荐的更好的阅读体验 Q1.Value Iteration 第一个问题是最基础的值迭代实现，这个问题没有什么难度，主要就是一边看着公式一遍敲代码复现。可以先回顾一下Note8中的Value Iteration框架.唯一唯一需要注意的就是需要使用的是batch版本，而…

2026/5/26 0:01:39 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/25 1:05:07 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/25 1:05:13 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/25 1:05:14 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/25 15:34:05 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/25 15:07:25 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/25 11:05:00 阅读更多

相关文章