CNN与RNN入门技术博客

发布时间：2026/5/19 13:26:07

引言为什么要学习 CNN 和 RNN在深度学习的世界里有两大神经网络架构堪称基石——卷积神经网络 (CNN)和循环神经网络 (RNN)。它们分别统治着计算机视觉和自然语言处理两大领域是每一位 AI 入门者必须掌握的核心技术。CNN让计算机看懂图像从手机的面部解锁到自动驾驶的目标检测再到医学影像的智能诊断RNN让计算机理解语言从 ChatGPT 的对话生成到机器翻译再到语音识别本文将用通俗易懂的方式配合精心绘制的示意图带你从零开始掌握这两大神经网络的核心原理。第一部分卷积神经网络 (CNN)1.1 图像基础计算机如何看图片在深入 CNN 之前我们首先要理解计算机眼中的图片是什么样子的三个基本概念高、宽、通道每张图片都可以用三个维度来描述Height (高)图片的垂直像素数单位是像素Width (宽)图片的水平像素数单位是像素Channel (通道)颜色信息的维度关于颜色的小知识0 代表黑色255 代表白色RGB 图像有 3 个通道红 (Red)、绿 (Green)、蓝 (Blue)每个通道的取值范围都是 0-255numpy vs PyTorch数据格式的差异这是新手最容易踩坑的地方不同框架存储图片的顺序不一样numpy 格式(H, W, C)- 通道在最后一维例如一张 224×224 的 RGB 图片 →(224, 224, 3)PyTorch 格式(C, H, W)- 通道在第一维例如一张 224×224 的 RGB 图片 →(3, 224, 224)记住这个区别在 PyTorch 中做图像处理时一定要记得把 numpy 的 (H,W,C) 转成 (C,H,W)图像的四种类型图像类型通道数取值范围说明二值图像10/1只有黑白两种颜色灰度图像10-255从黑到白的 256 级灰度索引图像1索引值存储索引通过颜色表查找 RGBRGB 图像30-255真彩色图像红绿蓝三通道图像处理三大 API# 读取图片将图片文件转为像素矩阵imagecv2.imread(cat.jpg)# 返回numpy数组 (H, W, C)# 显示图片根据像素矩阵绘制图像cv2.imshow(image,image)# 保存图片将像素矩阵保存为文件cv2.imwrite(output.jpg,image)1.2 CNN 是什么卷积神经网络 (Convolutional Neural Network, CNN)是一种专门用于处理网格结构数据如图像的神经网络。CNN 的四大组成部分输入层接收图像、视频、音频频谱图等数据卷积层提取图像特征图核心池化层降低特征图维度减少计算量输出层输出最终预测结果分类、检测等CNN 的典型应用场景✅ 图像分类识别猫 / 狗 / 汽车✅ 目标检测在图中框出人和物体✅ 面部解锁手机人脸识别✅ 自动驾驶道路和交通标志识别✅ 医学影像CT/MRI 病灶检测1.3 卷积层特征提取的核心卷积层是 CNN 的灵魂它的作用是自动提取图像的特征。什么是卷积核 / 滤波器卷积核也叫滤波器可以理解为带有共享参数的神经元。一个 3×3 的卷积核就是 9 个可学习的参数。有多少个卷积核就相当于有多少个神经元每个神经元负责提取一种特征。卷积计算过程单通道卷积计算步骤将卷积核与特征图对应位置的数值相乘将所有乘积相加得到一个输出值滑动窗口重复上述过程多通道卷积计算步骤每个通道分别与对应卷积核做卷积计算将所有通道的计算结果相加最终得到一个二维特征图关键点输入有多少个通道卷积核就必须有多少个通道Padding保护边缘信息Padding 就是在特征图周围补 0它有两个重要作用防止边缘信息丢失如果不补 0边缘像素只被计算一次中间像素被计算多次保持特征图形状一致让输入和输出的尺寸相同Stride控制降维速度Stride 是卷积核每次移动的步长stride1每次移动 1 个像素输出尺寸接近输入stride2每次移动 2 个像素输出尺寸减半Stride 的作用✅ 降维减少特征图大小✅ 扩大感受野让每个输出看到更大的输入区域特征图大小计算公式N floor((W - F 2P) / S 1) 其中 W 原特征图大小 F 卷积核大小 (Filter size) P padding填充圈数 S stride步长 floor() 向下取整举例输入 5×5卷积核 3×3padding1stride1N (5 - 3 2×1)/1 1 5 输出5×5 ✓ 尺寸不变Conv2d API 详解importtorch.nnasnn# 创建卷积层convnn.Conv2d(in_channels3,# 输入通道数RGB是3out_channels64,# 输出通道数卷积核个数kernel_size3,# 卷积核大小 3×3stride1,# 步长默认1padding1# 填充默认0)参数说明in_channels输入图像的通道数RGB3灰度 1out_channels卷积核的数量决定输出通道数kernel_size卷积核的尺寸3 最常用stride滑动步长padding周围补 0 的圈数1.4 池化层高效降维池化层的作用是在不改变通道数的前提下降低特征图的高和宽。⚠️与卷积层的核心区别池化层没有可学习的参数没有神经元只有池化窗口两种池化方式1. 最大池化 (Max Pooling)提取窗口内的最大值作用保留最显著的特征最常用2. 平均池化 (Average Pooling)提取窗口内的平均值作用平滑特征减少噪声池化的特点✅ 只在 H 和 W 维度降维通道数保持不变✅ 没有参数需要学习✅ 计算简单速度快Pooling API 详解# 最大池化max_poolnn.MaxPool2d(kernel_size2,# 池化窗口大小stride2,# 步长默认等于kernel_sizepadding0# 填充默认0)# 平均池化avg_poolnn.AvgPool2d(kernel_size2,stride2)常用技巧kernel_size2, stride2 可以将特征图尺寸正好减半第二部分循环神经网络 (RNN)2.1 RNN 是什么循环神经网络 (Recurrent Neural Network, RNN)是专门处理序列数据的神经网络。什么是序列数据序列数据有两个特点时间步生成数据是按顺序一个一个产生的前后关联当前数据和前面的数据有关系例如文本我爱深度学习→ 每个词依赖前面的语境语音按时间顺序的音频波形股票按时间顺序的价格数据RNN 的典型应用场景✅ 生成式 AI 大模型GPT、LLaMA 等✅ 机器翻译中→英✅ 语音识别语音→文字✅ 自然语言处理 NLP✅ 时间序列预测2.2 词嵌入层让计算机理解词语计算机不认识猫、狗这样的文字我们需要把词转换成向量。词嵌入的作用词嵌入 (Embedding)将离散的词语转换为低维稠密向量我 → [0.12, 0.34, 0.56, ...]爱 → [0.23, 0.45, 0.67, ...]为什么要这么做神经网络只能处理数值相似的词在向量空间中距离更近语义保持降低维度避免维度灾难词嵌入的完整流程文本句子 → 分词 → 词语 → 下标 → 词向量举例我爱自然语言处理 → 分词[我, 爱, 自然语言, 处理] → 下标[0, 1, 2, 3] → 向量[[0.1,...], [0.2,...], [0.3,...], [0.4,...]]Embedding API 详解# 创建词嵌入层embeddingnn.Embedding(num_embeddings10000,# 词汇表大小总词数embedding_dim128# 每个词向量的维度)# 使用输入下标输出向量word_indicestorch.tensor([0,1,2,3])# 词语的下标word_vectorsembedding(word_indices)# 输出(4, 128)参数说明num\_embeddings词汇表中总共有多少个不同的词embedding\_dim每个词转换成多少维的向量2.3 RNN 循环层具有记忆的网络RNN 最神奇的地方就是具有记忆功能—— 它能记住之前看到的信息RNN 的计算原理RNN 的核心公式当前隐藏状态 ht 当前输入xt 上一步记忆ht-1详细计算过程接收当前输入x_t词向量接收上一步的记忆h_{t-1}隐藏状态计算得到当前记忆h_t基于 h_t 输出预测结果y_t形象理解h 就像 RNN 的大脑每一步都会更新记忆然后基于记忆做出预测。RNN API 详解# 创建RNN层rnnnn.RNN(input_size128,# 输入特征维度词向量维度hidden_size256,# 隐藏层维度记忆的大小num_layers1# RNN的层数默认1层)# 使用RNN# x: (序列长度, batch大小, 词向量维度)# h0: (层数, batch大小, 隐藏层维度)output,hnrnn(x,h0)参数说明input_size输入数据的特征维度通常等于词向量维度hidden_size隐藏状态的维度决定 #34;记忆容量#34;num_layers堆叠多少层 RNN层数越多能力越强但越难训练输入输出形状输入 x(seq_len, batch_size, input_size)输入 h0(num_layers, batch_size, hidden_size)输出 output(seq_len, batch_size, hidden_size)输出 hn(num_layers, batch_size, hidden_size)总结与对比CNN vs RNN 核心对比维度CNNRNN处理数据空间数据图像序列数据文本 / 语音核心思想局部感受野参数共享循环连接状态传递记忆能力无每次独立处理有记住历史信息擅长领域计算机视觉自然语言处理输出长度固定可变可生成任意长度学习路线建议先学 CNN概念更直观可视化效果好容易建立信心再学 RNN理解记忆和序列的概念为学习 Transformer 打基础进阶学习LSTM/GRU解决 RNN 梯度消失→ Transformer注意力机制代码示例汇总完整的 CNN 示例图像分类importtorchimporttorch.nnasnnclassSimpleCNN(nn.Module):def__init__(self):super().__init__()# 输入: (3, 32, 32)self.conv1nn.Conv2d(3,16,kernel_size3,padding1)# (16, 32, 32)self.poolnn.MaxPool2d(2,2)# (16, 16, 16)self.conv2nn.Conv2d(16,32,kernel_size3,padding1)# (32, 16, 16)# pool后: (32, 8, 8)self.fcnn.Linear(32*8*8,10)# 10分类defforward(self,x):xself.pool(torch.relu(self.conv1(x)))xself.pool(torch.relu(self.conv2(x)))xx.flatten(1)xself.fc(x)returnx完整的 RNN 示例文本分类classSimpleRNN(nn.Module):def__init__(self,vocab_size10000,embed_dim128,hidden_size256):super().__init__()self.embeddingnn.Embedding(vocab_size,embed_dim)self.rnnnn.RNN(embed_dim,hidden_size,num_layers1)self.fcnn.Linear(hidden_size,2)# 二分类defforward(self,x):# x: (序列长度, batch_size)xself.embedding(x)# (seq_len, batch, embed_dim)output,hnself.rnn(x)# 取最后一个时间步的输出做分类last_outputoutput[-1]# (batch, hidden_size)returnself.fc(last_output)写在最后恭喜你现在你已经掌握了 CNN 和 RNN 的核心概念CNN通过卷积核提取空间特征是计算机视觉的基石RNN通过循环状态传递记忆是序列处理的基础这两个网络虽然结构不同但都体现了深度学习的核心思想 ——让神经网络自动学习特征而不是人工设计。掌握了这些你就可以向更高级的模型进发了CNN 方向ResNet、YOLO、ViTRNN 方向LSTM、GRU、Transformer、GPT深度学习的世界很精彩继续加油

如何在Hermes Agent中自定义配置Taotoken作为模型供应商

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度如何在Hermes Agent中自定义配置Taotoken作为模型供应商对于使用Hermes Agent进行AI应用开发的用户而言，能够灵活接入…

2026/5/19 13:24:06 阅读更多

别再只用ARIMA了！用Facebook Prophet快速搞定业务时间序列预测（附Python实战代码）

用Facebook Prophet三行代码完成高精度业务预测：电商场景实战指南当市场部门的同事又在周五下午5点发来"下周销售预测急用"的邮件时，你是否还在为ARIMA模型的参数调优焦头烂额？时间序列预测本应是数据科学中最具商业价值的技能之一…

2026/5/19 13:23:05 阅读更多

从三维点胶机到桌面雕刻机：一个STM32+FPGA运动控制核心板的复用实战

从三维点胶机到桌面雕刻机：STM32FPGA运动控制核心板的复用实战在工业自动化设备开发领域，运动控制器的复用性与平台化设计正成为工程师们关注的焦点。当我们完成一款基于STM32FPGA架构的运动控制核心板开发后，如何快速将其适配到不同应用场景…

2026/5/19 13:23:04 阅读更多

终极iOS游戏修改工具H5GG：用JavaScript轻松修改iOS游戏内存的完整指南

终极iOS游戏修改工具H5GG：用JavaScript轻松修改iOS游戏内存的完整指南【免费下载链接】H5GG an iOS Mod Engine with JavaScript APIs & Html5 UI 项目地址: https://gitcode.com/gh_mirrors/h5/H5GG 你是否曾经想要修改iOS游戏中的数值，却苦…

2026/5/19 14:15:08 阅读更多

网盘直链解析助手：一站式解决多平台文件下载难题

网盘直链解析助手：一站式解决多平台文件下载难题【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云盘 …

2026/5/19 14:13:46 阅读更多

MyBatis 调用存储过程接收 OUTPUT 输出参数

前言在实际企业开发中，经常会遇到使用存储过程处理复杂业务逻辑的场景（比如多表联查、数据统计、事务性批量操作）。MyBatis 作为主流的 ORM 框架，完美支持存储过程调用，但很多新手对如何接收存储过程的 OUT/INOUT 输出…

2026/5/19 14:12:24 阅读更多

别再傻傻分不清了！Lua中load和loadstring到底怎么用？一个例子讲透

深入解析Lua中的动态代码加载：load与loadstring的实战指南在Lua开发中，动态代码加载是一个强大但容易引发困惑的功能。许多开发者在不同环境下使用load和loadstring时，经常会遇到各种报错信息，比如"bad argument #1 to load…

2026/5/19 14:11:23 阅读更多

2025届学术党必备的五大AI论文神器推荐榜单

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 于学术写作范畴之内，AI技术正在变成高效助力工具。对那些撰写毕业论文的学生来讲…

2026/5/19 14:10:22 阅读更多

70亿参数大模型微调显存告急？LoRA/QLoRA带你飞！揭秘参数高效微调PEFT技术

大模型微调面临显存瓶颈，LoRA、QLoRA等PEFT技术应运而生。本文系统梳理大模型微调技术体系，从预训练、SFT到RLHF/DPO三个阶段，对比全参数微调与PEFT的优劣。深入解析LoRA的低秩自适应原理、QLoRA的量化技术，并介绍其他PEFT方法。最…

2026/5/19 14:10:22 阅读更多

5分钟快速上手：biliTickerBuy开源工具助你轻松抢购B站会员购热门票务

5分钟快速上手：biliTickerBuy开源工具助你轻松抢购B站会员购热门票务【免费下载链接】biliTickerBuy b站会员购购票辅助工具项目地址: https://gitcode.com/GitHub_Trending/bi/biliTickerBuy biliTickerBuy是一款专为B站会员购平台设计的开源辅助工具&…

2026/5/19 0:00:10 阅读更多

一口气讲清楚 Monorepo、Turborepo、pnpm、Changesets 到底是什么？

你肯定遇到过这种情况：项目里同时有前端、后端、公共组件，放在一个仓库嫌乱，拆成多个仓库又改一个公共函数要在五个项目里各改一遍。于是出现了 Monorepo、Turborepo、pnpm、Changesets 这四个词。它们不是互相替代，而是分别解决工…

2026/5/19 0:00:31 阅读更多

从ok-skills项目解析技能树：设计理念、技术实现与工程实践

1. 项目概述与核心价值最近在GitHub上看到一个挺有意思的项目，叫“ok-skills”。光看这个名字，可能有点摸不着头脑，但点进去一看，发现这是一个关于“技能树”或“知识图谱”的开源项目。简单来说，它试图用一种结构化的…

2026/5/19 0:01:12 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/19 4:14:12 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/19 6:17:20 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/19 0:56:48 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/19 0:13:34 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/19 0:00:02 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/18 19:34:27 阅读更多

相关文章