如何在消费级 GPU 上优雅跑 PPO：一个绕过 PyTorch 优化器坑的实战记录

发布时间：2026/6/14 0:13:23

#!/usr/bin/env python# -*- coding: utf-8 -*-PPO 训练在 DirectML 后端上的“平民级”完美运行脚本无需 NVIDIA CUDA消费级集成显卡/AMD/Intel 都能跑。绕过 PyTorch 优化器内部不兼容算子实现纯 GPU 训练。博客展示用自动安装依赖、检测设备、无警告无 fallback。import subprocessimport sysimport osimport importlibdef install_package(package):安装单个包并捕获错误print(f正在安装: {package} ...)try:subprocess.check_call([sys.executable, -m, pip, install, --upgrade, package])return Trueexcept subprocess.CalledProcessError as e:print(f安装 {package} 失败: {e})return Falsedef install_requirements():先升级 pip再按顺序安装依赖# 升级 pipprint(升级 pip...)subprocess.check_call([sys.executable, -m, pip, install, --upgrade, pip])# 依次安装packages [numpy, psutil, torch-directml] # torch-directml 会拉取 torch 和 torchvisionfor pkg in packages:if not install_package(pkg):print(f请手动安装 {pkg} 后再运行脚本: pip install {pkg})sys.exit(1)# 尝试导入依赖如果失败则安装missing []for pkg in [numpy, psutil, torch_directml]:try:importlib.import_module(pkg.replace(-, _))except ImportError:missing.append(pkg.replace(_, -) if directml in pkg else pkg)if missing:print(检测到缺失依赖:, missing)install_requirements()# 现在导入import numpy as npimport psutilimport torchimport torch.nn as nnimport torch.nn.functional as Fimport randomimport timeimport logging# 检查 torch_directml 是否可用try:import torch_directmlHAS_DIRECTML Trueexcept ImportError:HAS_DIRECTML Falselogging.basicConfig(levellogging.INFO, format%(asctime)s - %(name)s - %(levelname)s - %(message)s)logger logging.getLogger(PPO_Demo)def get_device():if HAS_DIRECTML:try:device torch_directml.device()_ torch.zeros(1, devicedevice)logger.info(f✅ 使用 DirectML 设备: {device} (消费级显卡/集成显卡))return deviceexcept Exception as e:logger.warning(fDirectML 初始化失败: {e}将使用 CPU)logger.warning(DirectML 不可用使用 CPU速度较慢但不会报错)return torch.device(cpu)device get_device()# 定义环境参数NUM_ACTIONS 6STATE_DIM 8class Actor(nn.Module):def __init__(self):super().__init__()self.net nn.Sequential(nn.Linear(STATE_DIM, 64), nn.ReLU(),nn.Linear(64, 64), nn.ReLU(),nn.Linear(64, NUM_ACTIONS))def forward(self, x):return self.net(x)class Critic(nn.Module):def __init__(self):super().__init__()self.net nn.Sequential(nn.Linear(STATE_DIM, 64), nn.ReLU(),nn.Linear(64, 1))def forward(self, x):return self.net(x)# 手动优化器SGD with momentum避免 torch.optim 内部不兼容算子class ManualOptimizer:def __init__(self, model, lr3e-4, momentum0.9):self.model modelself.lr lrself.momentum momentumself.momentum_buffers {}for name, param in model.named_parameters():if param.requires_grad:self.momentum_buffers[name] torch.zeros_like(param.data)def step(self):for (name, param), (buf_name, buf) in zip(self.model.named_parameters(), self.momentum_buffers.items()):if param.grad is None:continuebuf.data self.momentum * buf.data - self.lr * param.grad.dataparam.data.add_(buf.data)def zero_grad(self):for param in self.model.parameters():if param.grad is not None:param.grad.detach_()param.grad.zero_()class SimplePPO:def __init__(self):self.actor Actor().to(device)self.critic Critic().to(device)self.actor_opt ManualOptimizer(self.actor, lr3e-4, momentum0.9)self.critic_opt ManualOptimizer(self.critic, lr3e-4, momentum0.9)self.gamma 0.99self.gae_lambda 0.95self.clip_epsilon 0.2# 缓冲区存 numpy 数组方便 CPU 操作self.states []self.actions []self.rewards []self.next_states []self.dones []self.log_probs []def get_action(self, state):state_t torch.tensor(state, dtypetorch.float32, devicedevice).unsqueeze(0)logits self.actor(state_t)probs torch.softmax(logits, dim-1).cpu().detach().numpy()[0]action np.random.choice(NUM_ACTIONS, pprobs)log_prob np.log(probs[action] 1e-8)return action, log_probdef collect_experience(self, num_steps500):for _ in range(num_steps):state np.random.rand(STATE_DIM).astype(np.float32)action, logp self.get_action(state)next_state np.random.rand(STATE_DIM).astype(np.float32)reward np.random.randn() * 0.1done Falseself.states.append(state)self.actions.append(action)self.rewards.append(reward)self.next_states.append(next_state)self.dones.append(done)self.log_probs.append(logp)logger.info(f收集了 {num_steps} 条经验)def compute_gae(self, values, next_values):T len(values)advantages np.zeros(T)gae 0.0for t in range(T-1, -1, -1):delta self.rewards[t] self.gamma * next_values[t] * (1 - self.dones[t]) - values[t]gae delta self.gamma * self.gae_lambda * (1 - self.dones[t]) * gaeadvantages[t] gaeadv_mean, adv_std advantages.mean(), advantages.std()if adv_std 1e-8:advantages (advantages - adv_mean) / adv_stdreturn advantagesdef update(self, epochs3, batch_size64):if len(self.states) batch_size:returnstates_t torch.tensor(np.array(self.states), dtypetorch.float32, devicedevice)actions_t torch.tensor(self.actions, dtypetorch.long, devicedevice)old_log_probs_t torch.tensor(self.log_probs, dtypetorch.float32, devicedevice)with torch.no_grad():values self.critic(states_t).squeeze().cpu().numpy()next_states_t torch.tensor(np.array(self.next_states), dtypetorch.float32, devicedevice)next_values self.critic(next_states_t).squeeze().cpu().numpy()advantages_np self.compute_gae(values, next_values)returns_np advantages_np valuesadvantages_t torch.tensor(advantages_np, dtypetorch.float32, devicedevice)returns_t torch.tensor(returns_np, dtypetorch.float32, devicedevice)dataset_size len(self.states)indices list(range(dataset_size))for _ in range(epochs):random.shuffle(indices)for start in range(0, dataset_size, batch_size):end min(start batch_size, dataset_size)idx indices[start:end]batch_states states_t[idx]batch_actions actions_t[idx]batch_adv advantages_t[idx]batch_ret returns_t[idx]batch_old_logp old_log_probs_t[idx]logits self.actor(batch_states)probs F.softmax(logits, dim-1)action_probs torch.gather(probs, 1, batch_actions.unsqueeze(1)).squeeze(1)new_log_probs torch.log(action_probs 1e-8)entropy -(probs * torch.log(probs 1e-8)).sum(dim1).mean()ratio torch.exp(new_log_probs - batch_old_logp)surr1 ratio * batch_advsurr2 torch.clamp(ratio, 1.0 - self.clip_epsilon, 1.0 self.clip_epsilon) * batch_advactor_loss -torch.min(surr1, surr2).mean()values_pred self.critic(batch_states).squeeze()value_loss F.mse_loss(values_pred, batch_ret)total_loss actor_loss 0.5 * value_loss - 0.01 * entropyself.actor_opt.zero_grad()self.critic_opt.zero_grad()total_loss.backward()torch.nn.utils.clip_grad_norm_(self.actor.parameters(), 0.5)torch.nn.utils.clip_grad_norm_(self.critic.parameters(), 0.5)self.actor_opt.step()self.critic_opt.step()self.states.clear()self.actions.clear()self.rewards.clear()self.next_states.clear()self.dones.clear()self.log_probs.clear()logger.info(PPO 更新完成)if __name__ __main__:print(\n 消费级电脑 PPO 训练演示 (DirectML 手动优化器无警告无 fallback)\n)ppo SimplePPO()for i in range(3):print(f\n--- 迭代 {i1} ---)ppo.collect_experience(num_steps200)ppo.update(epochs2, batch_size64)test_state np.random.rand(STATE_DIM).astype(np.float32)action, _ ppo.get_action(test_state)print(f\n✅ 测试推理成功输入状态 → 动作 {action})print(\n 脚本运行完毕无任何警告所有计算均在 DirectML GPU 上完成采样/GAE 在 CPU不影响性能。)print( 手动优化器完美绕过了 PyTorch 优化器内部不兼容 DirectML 的算子。)友情提示确保 Python 3.12

i.MX应用处理器：异构计算与低功耗设计如何重塑嵌入式多媒体体验

1. 项目概述：i.MX系列应用处理器的核心价值在嵌入式系统开发领域，尤其是面对智能手机、便携媒体播放器、智能家居摄像头这些我们日常接触的设备时，一个核心的挑战始终横亘在工程师面前：如何在有限的电池容量下，榨取出尽…

2026/6/13 15:31:15 阅读更多

如何3分钟掌握SPT-AKI存档编辑器：逃离塔科夫离线版终极修改指南

如何3分钟掌握SPT-AKI存档编辑器：逃离塔科夫离线版终极修改指南【免费下载链接】SPT-AKI-Profile-Editor Программа для редактирования профиля игрока на сервере SPT-AKI 项目地址: https://gitcode.com/gh_…

2026/6/14 0:17:45 阅读更多

Tokenmaxxing的排行榜应该反着看

嗯，我承认这个标题有点夸张了。当你把不用 AI 写代码的人排除掉之后，确实有可能出现一种情况：Token 使用量更少的人，反而生产效率更高。我讲一个故事，你们可能就开始有点理解了。一个真实的故事在软件发展的早期&…

2026/6/14 16:36:41 阅读更多

Cursor Pro免费激活终极指南：如何绕过试用限制获取完整AI编程功能？

Cursor Pro免费激活终极指南：如何绕过试用限制获取完整AI编程功能？ 【免费下载链接】cursor-free-vip [Support 0.45]（Multi Language 多语言）自动注册 Cursor Ai ，自动重置机器ID ， 免费升级使用Pro 功能:…

2026/6/14 16:38:23 阅读更多

MPC8280 DMA控制器与时钟架构：链式传输与双PLL配置实战解析

1. MPC8280 DMA控制器：从寄存器到链式传输的深度解析在嵌入式系统，尤其是像MPC8280 PowerQUICC II这类通信处理器中，DMA（直接内存访问）控制器是性能的基石。它解放了CPU，让数据搬运这种“体力活”交给专门的…

2026/6/14 16:38:23 阅读更多

FreeCAD绘图尺寸标注插件：3分钟打造专业工程图纸的终极指南 [特殊字符]

FreeCAD绘图尺寸标注插件：3分钟打造专业工程图纸的终极指南 🚀 【免费下载链接】FreeCAD_drawing_dimensioning Drawing dimensioning workbench for FreeCAD v0.16 项目地址: https://gitcode.com/gh_mirrors/fr/FreeCAD_drawing_dimensioning 还…

2026/6/14 16:38:02 阅读更多

3D Gaussian Splatting实战：如何用你自己的手机视频生成炫酷3D场景（附完整代码与数据集）

3D Gaussian Splatting实战：如何用你自己的手机视频生成炫酷3D场景（附完整代码与数据集）在数字内容创作领域，3D场景重建技术正经历一场平民化革命。想象一下：用手机随手拍摄的公园长椅视频，经过算法处理后变…

2026/6/14 16:37:01 阅读更多

OpenCore Legacy Patcher深度探索：重新定义老旧Mac的现代化之路

OpenCore Legacy Patcher深度探索：重新定义老旧Mac的现代化之路【免费下载链接】OpenCore-Legacy-Patcher Experience macOS just like before 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher 当苹果宣布停止对老款Intel Mac的…

2026/6/14 16:37:01 阅读更多

ViT模型真的那么神？深入对比ResNet、EfficientNet，聊聊它的优缺点与适用场景

ViT模型真的那么神？深入对比ResNet、EfficientNet，聊聊它的优缺点与适用场景当计算机视觉工程师面对图像分类任务时，模型选型往往成为第一个关键决策。近年来，Visual Transformer（ViT）的横空出世让传统CNN架…

2026/6/14 16:36:41 阅读更多

音乐文件解锁实战指南：3个场景解决你的播放困境

音乐文件解锁实战指南：3个场景解决你的播放困境【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库： 1. https://github.com/unlock-music/unlock-music ；2. https://git.unlock-music.dev/um/web 项目地址: https://git…

2026/6/14 0:00:09 阅读更多

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

遥感卫星数据选型实战指南：从参数解析到场景化应用当面对GEE、PIE-Engine等云平台上数十种遥感数据源时，许多研究者常陷入选择困难——Landsat的历史连续性、Sentinel-2的红边波段优势、高分系列的亚米级分辨率各有千秋。本文将打破常规参数罗列式对比&a…

2026/6/14 0:00:30 阅读更多

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

1. 项目概述：MC68302 AutoBaud技术深度解析在嵌入式系统开发，尤其是那些需要与外部设备进行串口通信的场景里，最让人头疼的环节之一就是波特率匹配。想象一下，你设计了一个数据采集终端，需要连接来自不同厂家、不同年代…

2026/6/14 0:01:11 阅读更多

音乐文件解锁实战指南：3个场景解决你的播放困境

2026/6/14 0:00:09 阅读更多

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

2026/6/14 0:00:30 阅读更多

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

2026/6/14 0:01:11 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/14 10:35:25 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/14 10:02:42 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/14 10:02:42 阅读更多

相关文章

i.MX应用处理器：异构计算与低功耗设计如何重塑嵌入式多媒体体验

如何3分钟掌握SPT-AKI存档编辑器：逃离塔科夫离线版终极修改指南

Tokenmaxxing的排行榜应该反着看

Cursor Pro免费激活终极指南：如何绕过试用限制获取完整AI编程功能？

MPC8280 DMA控制器与时钟架构：链式传输与双PLL配置实战解析

FreeCAD绘图尺寸标注插件：3分钟打造专业工程图纸的终极指南 [特殊字符]

3D Gaussian Splatting实战：如何用你自己的手机视频生成炫酷3D场景（附完整代码与数据集）

OpenCore Legacy Patcher深度探索：重新定义老旧Mac的现代化之路

ViT模型真的那么神？深入对比ResNet、EfficientNet，聊聊它的优缺点与适用场景

音乐文件解锁实战指南：3个场景解决你的播放困境

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

音乐文件解锁实战指南：3个场景解决你的播放困境

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因