SAC算法实战笔记：我是如何用PyTorch在LunarLander上轻松拿到高分的

发布时间：2026/6/1 12:03:34

SAC算法实战笔记我是如何用PyTorch在LunarLander上轻松拿到高分的第一次看到LunarLander这个环境时我完全被它迷住了——控制登月舱平稳着陆这不就是小时候玩街机游戏的梦想吗但当我用传统方法尝试时结果总是不尽如人意。直到我遇到了SAC(Soft Actor-Critic)算法这个号称当前最先进的强化学习算法之一。经过几周的摸索和调试我终于让登月舱稳稳地降落在了目标区域。下面就是我的完整实战记录。1. 前期准备环境配置与SAC核心思想在开始编码之前我花了整整两天时间研读SAC的原始论文。SAC之所以强大在于它巧妙地将几个关键概念融合在一起熵正则化鼓励探索防止算法过早陷入局部最优双Q网络减少过高估计偏差提高稳定性策略迭代结合了策略梯度和值函数方法的优点我的开发环境配置如下# 环境配置 conda create -n sac python3.8 conda activate sac pip install gymnasium torch numpy matplotlib选择PyTorch而非TensorFlow的原因很简单——它的动态计算图让调试变得更加直观。在实现过程中我发现有几个关键参数需要特别注意参数推荐值作用学习率3e-4控制网络更新幅度折扣因子γ0.99平衡即时和未来奖励软更新系数τ0.005控制目标网络更新速度回放缓冲区大小1e6存储经验样本提示在初期实验中我发现学习率对训练稳定性影响极大。过高会导致震荡过低则学习缓慢。2. 网络架构设计从理论到实现SAC需要构建三个核心网络策略网络(Policy Network)和两个Q网络(Q Network)。我最初的设计过于复杂后来发现简洁的架构反而效果更好。2.1 策略网络实现策略网络输出动作的均值和方差使用重参数化技巧采样class PolicyNetwork(nn.Module): def __init__(self, state_dim, action_dim, hidden_dim256): super().__init__() self.fc1 nn.Linear(state_dim, hidden_dim) self.fc2 nn.Linear(hidden_dim, hidden_dim) self.mean nn.Linear(hidden_dim, action_dim) self.log_std nn.Linear(hidden_dim, action_dim) def forward(self, state): x F.relu(self.fc1(state)) x F.relu(self.fc2(x)) mean self.mean(x) log_std torch.clamp(self.log_std(x), min-20, max2) return mean, log_std这个设计有几个关键点使用ReLU激活函数保证非线性表达能力对log_std进行裁剪防止数值不稳定输出层不设激活函数保持原始尺度2.2 双Q网络结构为了防止Q值过高估计我实现了两个独立的Q网络class QNetwork(nn.Module): def __init__(self, state_dim, action_dim, hidden_dim256): super().__init__() self.fc1 nn.Linear(state_dim action_dim, hidden_dim) self.fc2 nn.Linear(hidden_dim, hidden_dim) self.fc3 nn.Linear(hidden_dim, 1) def forward(self, state, action): x torch.cat([state, action], dim1) x F.relu(self.fc1(x)) x F.relu(self.fc2(x)) return self.fc3(x)在训练时我取两个Q网络中的较小值作为目标这显著提高了算法的稳定性。3. 训练中的关键细节3.1 重参数化技巧的实现SAC的核心创新之一是使用重参数化技巧来采样动作。这允许梯度通过随机节点反向传播def sample_action(self, state): mean, log_std self.forward(state) std log_std.exp() normal torch.distributions.Normal(mean, std) z normal.rsample() # 重参数化 action torch.tanh(z) return action这个实现有几个注意事项使用rsample()而非sample()以保留梯度tanh将动作限制在[-1,1]范围内需要相应地调整对数概率计算3.2 自动熵系数调整SAC的一个巧妙设计是自动调整温度系数α。我实现了这个功能# 定义可训练的对数alpha self.log_alpha torch.zeros(1, requires_gradTrue) self.alpha self.log_alpha.exp() # 在训练循环中 alpha_loss -(self.log_alpha * (log_prob target_entropy).detach()).mean() self.alpha_optim.zero_grad() alpha_loss.backward() self.alpha_optim.step()设置目标熵(target_entropy)为-action_dim(例如-2)通常效果不错。3.3 Reward Shaping技巧LunarLander的原始奖励函数有些稀疏我做了以下调整增加了着陆速度惩罚项对保持水平姿态给予小奖励在接近目标时放大奖励信号这些调整显著加快了初期学习速度。具体实现def modify_reward(state, action, original_reward): x, y, vx, vy, angle, vang, leg1, leg2 state # 速度惩罚 speed_penalty 0.01 * (vx**2 vy**2) # 角度奖励 angle_reward -0.1 * angle**2 # 接近目标奖励 distance (x**2 y**2)**0.5 proximity_bonus 0.5 * math.exp(-distance) return original_reward - speed_penalty angle_reward proximity_bonus4. 调试与优化经验4.1 训练不收敛的排查第一次训练时我的算法完全无法收敛。经过排查发现了几个关键问题Q值爆炸没有正确裁剪梯度导致数值不稳定解决方法添加梯度裁剪torch.nn.utils.clip_grad_norm_(net.parameters(), 1)探索不足初期策略过于保守解决方法增加初始熵系数设置target_entropy-action_dim样本相关性连续样本相关性太强解决方法增大回放缓冲区随机采样batch_size2564.2 可视化训练过程为了监控训练进展我实现了几个关键指标的可视化def plot_training(episode_rewards, q_values, entropies): plt.figure(figsize(12, 4)) plt.subplot(131) plt.plot(episode_rewards) plt.title(Episode Rewards) plt.subplot(132) plt.plot(q_values) plt.title(Average Q Values) plt.subplot(133) plt.plot(entropies) plt.title(Policy Entropy) plt.tight_layout() plt.show()这些图表帮助我识别了训练过程中的几个关键阶段初期高熵探索阶段中期Q值快速上升期后期策略稳定收敛期4.3 超参数调优经验经过多次实验我总结了以下超参数设置经验参数影响调整策略学习率训练稳定性从3e-4开始按0.5倍调整批大小样本效率128-512之间越大越稳定折扣因子长期规划0.99适合大多数连续控制任务目标熵探索程度设为-action_dim是个好起点5. 最终成果与代码分享经过约50万步的训练我的SAC智能体在LunarLander上的表现平均得分250满分约260着陆成功率98%燃料效率比DQN提升40%关键代码结构如下sac_lunarlander/ ├── agent.py # SAC算法实现 ├── networks.py # 神经网络定义 ├── train.py # 训练循环 ├── utils.py # 辅助函数 └── visualize.py # 结果可视化最令我惊喜的是SAC的样本效率——在约10万步后就能达到不错的表现。这比之前尝试的PPO和DDPG都要高效。在实现过程中有几个啊哈时刻特别值得分享当第一次看到智能体主动减速准备着陆时发现自动熵调整确实能平衡探索与利用观察到双Q网络有效防止了值函数过高估计完整代码已开源在GitHub上。对于想要尝试的读者我的建议是先在小规模环境测试核心算法逐步添加高级功能如自动熵调整耐心调整超参数特别是学习率和批大小

超越基础控制：如何将你的宇树Z1机械臂仿真与自定义ROS节点深度集成

超越基础控制：宇树Z1机械臂仿真与ROS深度集成实战指南当机械臂遇上ROS，开发者便拥有了无限可能。宇树Z1作为一款轻量级协作机械臂，其仿真环境与ROS的深度集成能力为算法验证和任务开发提供了高效平台。本文将带您从零构建一个完整的视觉抓取任…

2026/6/1 12:03:34 阅读更多

AtlasOS：为Windows系统注入新活力的开源优化方案

AtlasOS：为Windows系统注入新活力的开源优化方案【免费下载链接】Atlas 🚀 An open and lightweight modification to Windows, designed to optimize performance, privacy and usability. 项目地址: https://gitcode.com/GitHub_Trending/atlas1/At…

2026/6/1 12:03:34 阅读更多

零基础闭眼装 Hermes 不用懂代码直接部署

很多小伙伴想要体验 Hermes Agent 智能工具，但在自行部署的过程中，常常卡在复杂的环境配置环节。安装各类依赖库、调试运行环境、修复路径报错，还要面对命令行异常、系统安全拦截、核心文件缺失等各类问题。对于只想快速体验功能的用户来说&a…

2026/6/1 12:02:33 阅读更多

3步革命性方案：用Brigadier智能解决Mac Boot Camp驱动部署难题

3步革命性方案：用Brigadier智能解决Mac Boot Camp驱动部署难题【免费下载链接】brigadier Fetch and install Boot Camp ESDs with ease. 项目地址: https://gitcode.com/gh_mirrors/bri/brigadier 还在为Mac电脑安装Windows系统后繁琐的驱动安装而头疼吗&a…

2026/6/1 17:33:08 阅读更多

3个核心技巧：用QuickCut智能剪辑让你的视频制作效率翻倍

3个核心技巧：用QuickCut智能剪辑让你的视频制作效率翻倍【免费下载链接】QuickCut Your most handy video processing software 项目地址: https://gitcode.com/gh_mirrors/qu/QuickCut 你是否曾经为了剪辑一段简单的视频而花费数小时？面对复杂的…

2026/6/1 17:32:48 阅读更多

计算机内存原理全解析：从DRAM单元到DDR5安装与故障排查

1. 内存：计算机的“工作台”与“瞬时记忆”如果你拆开过台式机或笔记本，一定见过主板上那几块绿色的长条状电路板，那就是内存条，学名随机存取存储器。很多人把它比作计算机的“短期记忆”，这个比喻很形象，但…

2026/6/1 17:32:27 阅读更多

Arduino记忆游戏：从硬件搭建到户外寻宝机关的嵌入式开发实践

1. 项目概述与核心价值如果你和我一样，既是个喜欢鼓捣硬件的极客，又对户外寻宝（Geocaching）这类结合了探索与解谜的活动情有独钟，那么这个项目绝对能让你眼前一亮。它本质上是一个基于Arduino的“西蒙说”&#xff08…

2026/6/1 17:32:27 阅读更多

一键备份QQ空间：GetQzonehistory让你的数字记忆永不丢失

一键备份QQ空间：GetQzonehistory让你的数字记忆永不丢失【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 你是否还记得那些年发过的QQ空间说说？那些深夜的心情记录…

2026/6/1 17:32:27 阅读更多

别让Edge抢戏！Win10下彻底锁定IE浏览器访问特定老网站的保姆级教程

Win10系统下精准锁定IE浏览器访问特定老网站的终极指南当财务部的老王第13次因为网银系统无法登录而拍桌子时，整个办公室都意识到这个问题的严重性——那些只认IE浏览器的老系统正在成为数字化转型路上最顽固的绊脚石。银行系统、税务平台、企业内部ERP，…

2026/6/1 17:31:47 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/1 0:00:11 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/1 0:03:17 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/1 0:06:19 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/1 0:24:01 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/1 2:19:25 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/1 0:23:56 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

2026/6/1 0:00:11 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

2026/6/1 0:03:17 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

2026/6/1 0:06:19 阅读更多

相关文章

超越基础控制：如何将你的宇树Z1机械臂仿真与自定义ROS节点深度集成

AtlasOS：为Windows系统注入新活力的开源优化方案

零基础闭眼装 Hermes 不用懂代码直接部署

3步革命性方案：用Brigadier智能解决Mac Boot Camp驱动部署难题

3个核心技巧：用QuickCut智能剪辑让你的视频制作效率翻倍

计算机内存原理全解析：从DRAM单元到DDR5安装与故障排查

Arduino记忆游戏：从硬件搭建到户外寻宝机关的嵌入式开发实践

一键备份QQ空间：GetQzonehistory让你的数字记忆永不丢失

别让Edge抢戏！Win10下彻底锁定IE浏览器访问特定老网站的保姆级教程

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因