用Pygame和PyTorch复刻经典AI实验：手把手教你搭建自己的Wumpus世界（Python 3.7环境）

发布时间：2026/6/11 3:44:59

用Pygame和PyTorch构建Wumpus世界从零实现经典AI实验在人工智能教学领域Wumpus世界一直被视为理解智能体决策过程的黄金标准。这个看似简单的洞穴探险游戏实则包含了感知、推理、规划等AI核心概念。本文将带你用Python 3.7环境结合Pygame 2.1.2和PyTorch 1.13.0完整复现这个经典实验。1. 环境准备与项目架构1.1 开发环境配置首先确保已安装Python 3.7.x版本。建议使用conda创建独立环境conda create -n wumpus python3.7 conda activate wumpus安装所需依赖库pip install pygame2.1.2 torch1.13.0 numpy1.18.5项目目录结构建议如下wumpus-world/ ├── assets/ # 存放游戏素材 │ ├── wumpus.png │ ├── gold.png │ └── pit.png ├── world.py # 游戏世界逻辑 ├── agent.py # 智能体实现 ├── dqn_trainer.py # 强化学习训练 └── main.py # 主入口文件1.2 核心类设计我们需要三个基础类来构建游戏世界class GameObject: 游戏对象基类 def __init__(self, x, y): self.x x self.y y self.visible False class Room: 洞穴房间实现 def __init__(self, x, y): self.x x self.y y self.has_wumpus False self.has_pit False self.has_gold False self.visited False2. 游戏世界构建2.1 世界初始化逻辑World类负责管理整个游戏状态class World: def __init__(self, size4): self.size size self.grid [[Room(x, y) for y in range(size)] for x in range(size)] self.agent_pos (0, 0) self.agent_has_gold False self.agent_has_arrow True self.game_over False # 随机放置危险和奖励 self._place_objects()关键初始化方法def _place_objects(self): 随机放置Wumpus、陷阱和黄金 locations self._get_random_locations(3) self.wumpus_pos locations[0] self.pit_pos locations[1] self.gold_pos locations[2] # 更新房间状态 self.grid[self.wumpus_pos[0]][self.wumpus_pos[1]].has_wumpus True self.grid[self.pit_pos[0]][self.pit_pos[1]].has_pit True self.grid[self.gold_pos[0]][self.gold_pos[1]].has_gold True2.2 感知系统实现智能体通过有限感知了解环境感知信号触发条件臭气(Stench)邻近Wumpus所在房间微风(Breeze)邻近无底洞房间金光(Glitter)当前房间有黄金撞击(Bump)撞到墙壁嚎叫(Scream)Wumpus被射杀实现代码示例def get_percepts(self): x, y self.agent_pos percepts [] # 检查当前房间 if self.grid[x][y].has_gold: percepts.append(Glitter) # 检查相邻房间 neighbors self._get_neighbors(x, y) for nx, ny in neighbors: if self.grid[nx][ny].has_wumpus: percepts.append(Stench) if self.grid[nx][ny].has_pit: percepts.append(Breeze) return percepts3. 智能体决策系统3.1 基于规则的决策逻辑基础智能体可以采用if-then规则class RuleBasedAgent: def decide_action(self, percepts): if Glitter in percepts: return Grab elif Stench in percepts and self.has_arrow: return Shoot elif self.safe_rooms: return Move else: return Turn3.2 强化学习实现使用PyTorch构建DQN网络import torch import torch.nn as nn class DQN(nn.Module): def __init__(self, input_size, hidden_size, output_size): super(DQN, self).__init__() self.fc1 nn.Linear(input_size, hidden_size) self.fc2 nn.Linear(hidden_size, hidden_size) self.fc3 nn.Linear(hidden_size, output_size) def forward(self, x): x torch.relu(self.fc1(x)) x torch.relu(self.fc2(x)) return self.fc3(x)奖励函数设计def get_reward(self, action): reward -1 # 默认行动代价 if self.agent_has_gold and self.agent_pos (0, 0): reward 1000 # 成功带黄金逃脱 elif self.game_over and not self.agent_has_gold: reward - 1000 # 死亡惩罚 elif action Shoot: reward - 10 # 射箭代价 return reward4. Pygame可视化实现4.1 游戏界面构建初始化Pygame显示import pygame class WumpusVisualizer: def __init__(self, world_size4, cell_size100): pygame.init() self.cell_size cell_size self.screen pygame.display.set_mode( (world_size * cell_size, world_size * cell_size)) pygame.display.set_caption(Wumpus World) # 加载素材 self.images { wumpus: pygame.image.load(assets/wumpus.png), gold: pygame.image.load(assets/gold.png), pit: pygame.image.load(assets/pit.png) }4.2 游戏主循环def run_game(self): clock pygame.time.Clock() running True while running: for event in pygame.event.get(): if event.type pygame.QUIT: running False elif event.type pygame.KEYDOWN: self._handle_key_event(event) self._draw_world() pygame.display.flip() clock.tick(30) pygame.quit()5. 常见问题与调试技巧5.1 典型错误解决方案错误类型可能原因解决方案图片加载失败路径错误或文件缺失使用绝对路径或检查assets目录智能体卡死决策逻辑缺陷添加随机探索机制训练不收敛奖励设计不合理调整奖励函数参数内存泄漏未正确释放资源使用del显式释放对象5.2 性能优化建议状态表示压缩使用位掩码表示房间状态经验回放实现Replay Buffer存储训练样本并行训练使用多环境同时收集数据可视化调试添加调试信息覆盖层# 示例状态压缩表示 def get_state_representation(self): state 0 if self.has_wumpus: state | 0b0001 if self.has_pit: state | 0b0010 if self.has_gold: state | 0b0100 if self.visited: state | 0b1000 return state6. 项目扩展方向多智能体协作添加多个智能体共同探索动态环境实现移动的Wumpus和变化的地形高级感知添加视觉输入替代简单感知信号混合决策结合规则系统和强化学习实现动态Wumpus的示例代码def move_wumpus(self): if random.random() 0.3: # 30%概率移动 current_x, current_y self.wumpus_pos neighbors self._get_neighbors(current_x, current_y) new_pos random.choice(neighbors) self._update_wumpus_position(new_pos)在完成基础版本后可以尝试添加更多游戏元素如多种武器系统时间限制机制能量消耗系统地图编辑器功能

处理长笔记，Gemini 比 GPT 好在哪？

【摘要】在知识管理、学习笔记、项目文档等场景中，长笔记的整理、归纳与深度分析已成为高频刚需。面对万字级甚至十万字级的长笔记，Gemini 与 GPT 呈现出显著的能力差异。本文从技术原理、实测表现、核心优势等维度，深度拆解 Gemini 在长笔记…

2026/6/11 3:44:59 阅读更多

神经生物学研究【20260007】

文章目录数值积分计算器1. 引言2. 功能概述3. 方法实现3.1 梯形法则（trapz 函数）3.2 辛普森法则（simpson 函数）3.3 蒙特卡洛积分（montecarlo 函数）4. 输入处理与用户交互5. 输出结果6. 性能分析7. 潜在问题…

2026/6/11 3:43:58 阅读更多

权威解读！降钙素基因相关肽1型受体市场分析报告，8.3%增速实现规模翻倍扩容

一、降钙素基因相关肽1型受体市场规模分析1.1 2025年基准市场规模降钙素基因相关肽1型受体赛道横跨生物医药、生命科学工具两大核心领域，依托神经疾病精准治疗刚需与新药研发热潮，行业发展势头强劲。据恒州诚思调研统计，2025年全球降钙素基因…

2026/6/11 3:43:58 阅读更多

告别付费工具！手把手教你用开源代码搭建自己的微信/企微自动化机器人（附完整C++示例）

从零构建企业级微信自动化工具：C开源方案实战指南微信和企业微信作为国内主流通讯工具，其自动化需求一直存在旺盛的市场。但商业解决方案往往面临价格高昂、功能受限或突然停服的风险。本文将带你用C和开源技术栈，打造完全自主可控的自动化系…

2026/6/11 5:22:10 阅读更多

剪映自动化终极指南：如何用Python代码批量处理1000个视频

剪映自动化终极指南：如何用Python代码批量处理1000个视频【免费下载链接】JianYingApi Third Party JianYing Api. 第三方剪映Api 项目地址: https://gitcode.com/gh_mirrors/ji/JianYingApi 你是否曾想过，用代码控制剪映软件，实现视…

2026/6/11 5:21:10 阅读更多

如何通过智能游戏辅助工具提升英雄联盟操作效率：5个核心功能详解

如何通过智能游戏辅助工具提升英雄联盟操作效率：5个核心功能详解【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 还在为英雄联盟中…

2026/6/11 5:21:10 阅读更多

如何用Squirrel-RIFE让老旧视频焕发新生：AI补帧的终极免费指南

如何用Squirrel-RIFE让老旧视频焕发新生：AI补帧的终极免费指南【免费下载链接】Squirrel-RIFE 效果更好的补帧软件，显存占用更小，是DAIN速度的10-25倍，包含抽帧处理，去除动漫卡顿感项目地址: https://gitcode.com/…

2026/6/11 5:20:09 阅读更多

AI-Scientist：你的全自动科研助手，让AI帮你完成科学发现全过程

AI-Scientist：你的全自动科研助手，让AI帮你完成科学发现全过程【免费下载链接】AI-Scientist The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery 🧑‍🔬 项目地址: https://gitcode.com/GitHub_Tren…

2026/6/11 5:20:09 阅读更多

手把手教你用STC89C52和NRF24L01做个无线水压监控器（附Proteus仿真文件）

从零打造无线水压监测系统：STC89C52与NRF24L01实战指南最近在整理工作室时翻出一个旧鱼缸水泵，突发奇想能否给它加装智能监控功能。这个念头让我开始了为期两周的无线水压监测系统开发之旅。本文将完整还原我的制作过程，特别适合想要入门物联…

2026/6/11 5:19:08 阅读更多

LLM 多轮对话状态管理：从无状态 API 到有状态会话

LLM 多轮对话状态管理：从无状态 API 到有状态会话一、大模型 API 的无状态困境：上下文窗口的有限性与会话连续性大模型的 Chat API 本质上是无状态的——每次请求都需要发送完整的对话历史。这种设计简化了服务端实现，但给后端架构带来了两个…

2026/6/11 1:00:57 阅读更多

Spring Boot 3 与 GraalVM 原生镜像：从 JIT 到 AOT 的启动革命

Spring Boot 3 与 GraalVM 原生镜像：从 JIT 到 AOT 的启动革命一、JVM 冷启动的性能困境：云原生环境下的启动延迟 Java 应用在云原生环境中面临的核心挑战是冷启动延迟。一个典型的 Spring Boot 2 应用，启动时间约 3-8 秒，内存占…

2026/6/11 1:01:58 阅读更多

Go 错误处理与错误链：从哨兵错误到自定义错误类型的工程实践

Go 错误处理与错误链：从哨兵错误到自定义错误类型的工程实践一、Go 错误处理的工程困境：哨兵值与信息丢失 Go 的错误处理采用显式返回值模式，if err ! nil 是每个 Go 开发者最熟悉的代码片段。然而，当项目规模增长后，简…

2026/6/11 1:01:58 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/11 0:58:15 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/11 0:58:13 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/11 0:58:10 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/10 9:56:42 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/10 9:56:39 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/10 9:56:34 阅读更多

相关文章