p13 3.4 算法改进：改进的神经网络架构_cdn

发布时间：2026/6/8 17:08:42

p13 3.4 算法改进改进的神经网络架构UP主: 吴恩达-深度学习时长: 3:00链接: https://www.bilibili.com/video/BV1fdgVzmEhU?vd_sourcec5f4fa69d4683faa24f604a2266ac501spm_id_from333.788.player.switchp13笔记时间: 2026-06-08 09:22:05强化学习笔记改进的神经网络架构p13 3.4[LIST] 课程概览本节课介绍了在深度强化学习中对DQNDeep Q-Network算法进行优化的关键方法——改进神经网络架构。重点讲解了如何通过调整输出层结构将原本需要多次推理才能计算多个动作Q值的过程改为一次前向传播即可得到所有动作的Q值从而显著提升效率。该优化广泛应用于实际的DQN实现中尤其适用于连续状态空间下的决策问题如月球着陆器控制任务。[TOC] 目录大纲原始DQN架构的问题改进后的神经网络架构设计输入与输出结构详解推理效率对比分析Q值计算与贝尔曼方程应用[NOTE] 详细笔记1. 原始DQN架构的问题在原始DQN中为了评估一个状态 $ s $ 下不同动作的Q值需对每个动作分别执行一次前向传播。比如有四个可能的动作nothing,left,main,right则需调用模型四次$ Q(s, \text{nothing}) $$ Q(s, \text{left}) $$ Q(s, \text{main}) $$ Q(s, \text{right}) $这种方式是低效的因为每一步都必须重复运行整个网络导致计算开销大、延迟高。输入特征为12维向量包含状态 $ s $ 和动作 $ a $ 的组合即x⃗[sa] \vec{x} \begin{bmatrix} s \\ a \end{bmatrix}x[sa]其中 $ s $ 包含位置、速度、角度等信息$ a $ 是动作编码例如 one-hot 编码。网络结构为两层隐藏层各64个单元输出层只有一个单元仅输出单个 $ Q(s,a) $。In a state s, use neural network to compute: Q(s, nothing), Q(s, left), Q(s, main), Q(s, right) Pick the action a that maximizes Q(s,a)2. 改进后的神经网络架构设计新架构的核心思想是一次性输入状态 $ s $直接输出所有动作对应的Q值。不再将动作作为输入的一部分而是让网络输出多个Q值对应于所有可行动作。关键变化特性原始架构改进架构输入维度12 inputss a8 inputs仅 s输出单元数1 unit4 units动作处理方式分别推理单次推理获取全部Q值效率低效4次推理高效1次推理状态 $ s $ 被定义为8维向量s[xyθx˙y˙θ˙lr] s \begin{bmatrix} x \\ y \\ \theta \\ \dot{x} \\ \dot{y} \\ \dot{\theta} \\ l \\ r \end{bmatrix}sxyθx˙y˙θ˙lr对应于月球着陆器的位置、角度、速度及燃料剩余量等参数。神经网络结构保持不变两层隐藏层64单位 × 2但输出层变为4个单元分别代表四种动作的Q值。In a state s, input s to neural network. Pick the action a that maximizes Q(s,a).3. 输出层与Q值映射关系输出层的四个神经元分别对应以下Q值第1个 → $ Q(s, \text{nothing}) $第2个 → $ Q(s, \text{left}) $第3个 → $ Q(s, \text{main}) $第4个 → $ Q(s, \text{right}) $这样一来只需一次前向传播就能获得所有动作的Q值极大提升了决策效率。决策过程简化为a∗arg⁡max⁡aQ(s,a) a^* \arg\max_a Q(s, a)a∗argamaxQ(s,a)即选择使Q值最大的动作。4. 推理效率对比分析方法推理次数计算复杂度实时性原始方法4次高差改进方法1次低优使用改进架构后我们只需运行一次推理即可获得所有四个Q值然后快速选择最大化 $ Q(s,a) $ 的动作 $ a $。此外在训练过程中目标是使用贝尔曼方程更新Q值yR(s)γmax⁡a′Q(s′,a′) y R(s) \gamma \max_{a} Q(s, a)yR(s)γa′maxQ(s′,a′)其中最大值可以直接从输出层的四个值中选取。[TIP] 重点总结原始DQN效率低下每次评估一个状态需要多次前向传播浪费计算资源。改进核心统一输出将所有动作的Q值并行输出避免重复推理。输入简化不再将动作 $ a $ 作为输入只传入状态 $ s $。输出层设计输出层数量等于动作数量此处为4每个单元对应一个动作的Q值。决策加速一次推理完成所有动作评估大幅提升实时性能。适用场景特别适合离散动作空间、连续状态空间的任务如月球着陆器控制。贝尔曼方程支持最大值可直接从输出层读取便于损失函数构建。[Q] 思考题为什么在原始DQN中将动作 $ a $ 作为输入会导致效率下降如果动作空间更大比如10个动作改进后的架构会带来多大的性能提升改进后的网络是否仍然可以用于连续动作空间如果不行应如何扩展输出层的4个单元是如何被训练以分别表示不同动作的Q值的如何利用这个改进架构来实现更高效的探索策略如ε-greedy[PIN] 学习建议✅复习建议回顾之前关于DQN的基本原理特别是Q-learning和贝尔曼方程。对比两种架构的输入输出结构图理解其差异。尝试手绘两个版本的神经网络结构图并标注数据流向。延伸阅读方向Deep Q-Network (DQN) 的原始论文《Human-level control through deep reinforcement learning》Double DQN、Dueling DQN 等后续改进算法在Atari游戏或OpenAI Gym中的实际实现案例如LunarLander-v2使用PyTorch/TensorFlow搭建一个简单的DQN模型测试两种架构的推理时间差异提示可在GitHub上查找“LunarLander DQN”项目观察其网络结构代码实现。AI自检修正以下为AI自动检查发现的潜在问题请人工确认[错误] 原文: 输入特征为12维向量包含状态 $ s $ 和动作 $ a $ 的组合 → 应改为: 输入特征的具体维度取决于具体实现但通常情况下原始DQN的输入仅是状态 $ s $ 而不是状态和动作的组合。这里可能是指在某些特定实现中将动作也编码进输入的情况但这不是标准做法。[错误] 原文: 状态 $ s $ 被定义为8维向量…对应于月球着陆器的位置、角度、速度及燃料剩余量等参数。→ 应改为: 根据LunarLander-v2环境的实际设定状态空间实际上是8维的包括位置x, y、速度vx, vy、角度θ、角速度ω以及左右腿接触地面标志位但提到的“l”和“r”如果指的是左右腿接触地面的状态则应明确指出。[错误] 原文: 如果动作空间更大比如10个动作改进后的架构会带来多大的性能提升→ 应改为: 改进后的架构对于任何大小的动作空间都能提供效率上的提升因为无论有多少个动作都只需要一次前向传播来评估所有动作的价值。因此随着动作数量增加这种优化带来的相对性能增益更加明显。度ω以及左右腿接触地面标志位但提到的“l”和“r”如果指的是左右腿接触地面的状态则应明确指出。[错误] 原文: 如果动作空间更大比如10个动作改进后的架构会带来多大的性能提升→ 应改为: 改进后的架构对于任何大小的动作空间都能提供效率上的提升因为无论有多少个动作都只需要一次前向传播来评估所有动作的价值。因此随着动作数量增加这种优化带来的相对性能增益更加明显。其他部分未发现明显与课程视频内容不符之处。

腾讯元宝 pdf 办公导出痛点全梳理，借助 AI 导出鸭实测多款导出工具，挑选性价比最优的文档转换办法

摘要本文围绕腾讯元宝PDF文档导出现存行业痛点展开调研，结合市面主流文档导出方式，对比五类落地导出方案，依托行业白皮书数据与行业专家观点，搭配真实用户使用反馈，详解AI导出鸭全终端产品布局，明确其一站…

2026/6/8 17:07:41 阅读更多

上交大突破：多米诺推理策略实现AI推理速度近6倍能力提升

这项由上海交通大学EPIC实验室主导，联合华中科技大学软件工程学院、电子科技大学、复旦大学以及华为的研究团队共同完成的工作，于2026年5月28日以预印本形式发布，论文编号为arXiv:2605.29707。有兴趣深入了解的读者可以通过该编号查询完整论文…

2026/6/8 17:06:00 阅读更多

第34章：AI辅助链上游戏（全链上）——状态管理、随机数、公平性证明

本章你将收获：全链上游戏的核心架构与设计模式（状态压缩、事件溯源、无Gas交易）；使用Merkle树管理游戏状态（玩家数据、地图、道具）；集成Chainlink VRF生成可验证随机数（开箱、战斗、地图生成）；使用ZK证明实现公平性验证（玩家可验证游戏逻辑未作弊）；实战：构建一个…

2026/6/8 17:05:59 阅读更多

从运维老鸟的视角：FusionAccess桌面云日常巡检与故障快速定位Checklist

华为FusionAccess桌面云高效运维实战：从健康巡检到故障定位的完整指南引言：当桌面云成为企业数字神经中枢在金融行业某省级分行的数据中心监控大屏前，运维主管张工正盯着突然激增的告警信息皱眉——上午9点开盘时段，交易部门的数十…

2026/6/8 18:07:44 阅读更多

ngx_open_and_stat_file

1 定义 ngx_open_and_stat_file 函数定义在 ./nginx-1.24.0/src/core/ngx_open_file_cache.cstatic ngx_int_t ngx_open_and_stat_file(ngx_str_t *name, ngx_open_file_info_t *of,ngx_log_t *log) {ngx_fd_t fd;ngx_file_info_t fi;if (of->fd ! NGX_INVALID_FI…

2026/6/8 18:07:44 阅读更多

wu.js核心函数解析：map、filter、reduce的迭代器版本实现原理

wu.js核心函数解析：map、filter、reduce的迭代器版本实现原理【免费下载链接】wu.js wu.js is a JavaScript library providing higher order functions for ES6 iterators. 项目地址: https://gitcode.com/gh_mirrors/wu/wu.js wu.js是一个为ES6迭代器提供…

2026/6/8 18:06:23 阅读更多

Matlab语音去噪实操包：谱减法vs卡尔曼滤波，带原始音频、可运行脚本与全程操作录像

本文还有配套的精品资源，点击获取简介：直接上手就能跑的Matlab语音去噪实验环境，包含干净语音clean.wav和5dB信噪比的带噪语音5dB_noisy.wav。两个核心去噪脚本Runm1_pujianfa.m（谱减法）和Runm1_kalman.m&#xff…

2026/6/8 18:02:40 阅读更多

Atmosphère终极指南：深度解析任天堂Switch自定义固件的6层架构设计

Atmosphre终极指南：深度解析任天堂Switch自定义固件的6层架构设计【免费下载链接】Atmosphere-stable 大气层整合包系统稳定版项目地址: https://gitcode.com/gh_mirrors/at/Atmosphere-stable Atmosphre（大气层）是任天堂Switch平台…

2026/6/8 18:01:19 阅读更多

CodeWarrior多目标构建实践：嵌入式开发高效管理硬件变体

1. 项目概述与核心价值在嵌入式开发领域，尤其是面对Motorola DSP这类专用处理器平台时，一个常见的挑战是如何高效地管理针对不同硬件配置的软件构建。你可能正在开发一个核心算法，但它需要同时适配评估板上的外部RAM、最终产品中的Flash存储器…

2026/6/8 18:00:58 阅读更多

解决老旧机顶盒资源化难题：Amlogic S9xxx Armbian项目在TY1608设备上的系统适配实现

解决老旧机顶盒资源化难题：Amlogic S9xxx Armbian项目在TY1608设备上的系统适配实现【免费下载链接】amlogic-s9xxx-armbian Supports running Armbian on Amlogic, Allwinner, and Rockchip devices. Support a311d, s922x, s905x3, s905x2, s912, s905d, s905x, …

2026/6/8 0:00:25 阅读更多

Python Scrapy 爬虫实战进阶系列（一）：轻量化数据存储 - 数据精准写入 SQLite 数据库

前言在 Python 爬虫开发领域中，Scrapy 作为高性能、高可扩展性的异步爬虫框架，是行业内采集结构化数据的首选工具。在中小型爬虫项目、本地数据采集、轻量化数据存储场景中，SQLite 无需独立服务、单文件存储、原生兼容 Python 的特性&#…

2026/6/8 0:00:45 阅读更多

3步实现Windows直读Btrfs分区：跨平台文件系统互通终极方案

3步实现Windows直读Btrfs分区：跨平台文件系统互通终极方案【免费下载链接】btrfs WinBtrfs - an open-source btrfs driver for Windows 项目地址: https://gitcode.com/gh_mirrors/bt/btrfs 还在为Windows无法访问Linux Btrfs分区而烦恼吗？你是…

2026/6/8 0:03:08 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/8 0:06:11 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/8 0:06:11 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/8 0:06:11 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/8 9:43:25 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/8 9:43:23 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/8 9:43:30 阅读更多

相关文章

腾讯元宝 pdf 办公导出痛点全梳理，借助 AI 导出鸭实测多款导出工具，挑选性价比最优的文档转换办法

上交大突破：多米诺推理策略实现AI推理速度近6倍能力提升

第34章：AI辅助链上游戏（全链上）——状态管理、随机数、公平性证明

从运维老鸟的视角：FusionAccess桌面云日常巡检与故障快速定位Checklist

ngx_open_and_stat_file

wu.js核心函数解析：map、filter、reduce的迭代器版本实现原理

Matlab语音去噪实操包：谱减法vs卡尔曼滤波，带原始音频、可运行脚本与全程操作录像

Atmosphère终极指南：深度解析任天堂Switch自定义固件的6层架构设计

CodeWarrior多目标构建实践：嵌入式开发高效管理硬件变体

解决老旧机顶盒资源化难题：Amlogic S9xxx Armbian项目在TY1608设备上的系统适配实现

Python Scrapy 爬虫实战进阶系列（一）：轻量化数据存储 - 数据精准写入 SQLite 数据库

3步实现Windows直读Btrfs分区：跨平台文件系统互通终极方案

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因