CPT 强化学习（Cumulative Prospect Theory Reinforcement Learning）代码实现

发布时间：2026/5/24 22:10:07

✅ CPT 强化学习Cumulative Prospect Theory Reinforcement Learning代码实现以下提供实用、可运行的 Python 实现结合Cumulative Prospect Theory (CPT)与强化学习。1. 核心概念回顾在传统 RL 中目标是最大化期望回报Expected Return。在CPT-RL中目标是最大化 CPT 值考虑损失厌恶、概率扭曲、参照点让 Agent 表现出人类-like 的风险偏好风险规避/寻求。2. 完整代码实现简单版CPT-Q Learningimportgymnasiumasgymimportnumpyasnpfromcollectionsimportdefaultdictimportrandom# CPT 核心函数 defcpt_value(x,alpha0.88,beta0.88,lambda_loss2.25):价值函数 v(x)xnp.array(x)returnnp.where(x0,x**alpha,-lambda_loss*(-x)**beta)defcpt_probability_weight(p,gamma_gain0.61,gamma_loss0.69):概率权重函数 w(p)pnp.array(p)# 简单实现不同 gamma 用于收益和损失w_gainp**gamma_gain/(p**gamma_gain(1-p)**gamma_gain)**(1/gamma_gain)w_lossp**gamma_loss/(p**gamma_loss(1-p)**gamma_loss)**(1/gamma_loss)returnnp.where(p0,w_gain,w_loss)# 简化处理defestimate_cpt_value(rewards,alpha0.88,beta0.88,lambda_loss2.25,gamma_gain0.61,gamma_loss0.69,reference0.0):从多条 trajectory 的回报样本估计 CPT 值returnsnp.array(rewards)-reference sorted_returnsnp.sort(returns)nlen(sorted_returns)# 计算决策权重累积形式简化版probsnp.ones(n)/n weightscpt_probability_weight(probs)# 累积权重简化实现cum_weightsnp.cumsum(weights[::-1])[::-1]# 粗略近似valuescpt_value(sorted_returns)cpt_valnp.sum(cum_weights*values)/n# 归一化returncpt_val# CPT-Q Learning classCPTQAgent:def__init__(self,state_size,action_size,alpha0.1,gamma0.99,epsilon0.1,cpt_alpha0.88,cpt_lambda2.25):self.q_tabledefaultdict(lambda:np.zeros(action_size))self.alphaalpha# 学习率self.gammagamma# 折扣因子self.epsilonepsilon# 探索率self.action_sizeaction_size self.cpt_alphacpt_alpha self.cpt_lambdacpt_lambda self.memory[]# 存储 trajectory returns 用于 CPT 估计defchoose_action(self,state):ifrandom.uniform(0,1)self.epsilon:returnrandom.randint(0,self.action_size-1)returnnp.argmax(self.q_table[state])deflearn(self,state,action,reward,next_state,done):# 标准 Q-Learning 更新可替换为 CPT 目标old_valueself.q_table[state][action]next_maxnp.max(self.q_table[next_state])# 传统 TD Targettd_targetrewardself.gamma*next_max*(1-done)self.q_table[state][action]old_valueself.alpha*(td_target-old_value)ifdone:self.memory.append(reward)# 简化记录 episode 回报# 训练示例 deftrain_cpt_rl(env_nameCartPole-v1,episodes500):envgym.make(env_name)state_sizeenv.observation_space.shape[0]# 连续状态需离散化或用近似# 为简单起见这里使用离散环境示例如 FrozenLake# 推荐使用简单离散环境演示envgym.make(FrozenLake-v1,is_slipperyFalse)agentCPTQAgent(state_sizeenv.observation_space.n,action_sizeenv.action_space.n)rewards_history[]forepisodeinrange(episodes):state,_env.reset()total_reward0doneFalsewhilenotdone:actionagent.choose_action(state)next_state,reward,terminated,truncated,_env.step(action)doneterminatedortruncated agent.learn(state,action,reward,next_state,done)statenext_state total_rewardreward rewards_history.append(total_reward)ifepisode%1000:print(fEpisode{episode}, Total Reward:{total_reward})# 演示 CPT 值估计sample_returnsrewards_history[-50:]# 最近50个 episodecpt_valestimate_cpt_value(sample_returns)print(f\n最后50个episode的 CPT 值估计:{cpt_val:.4f})returnagent,rewards_historyif__name____main__:agent,historytrain_cpt_rl(episodes1000)3. 进阶Policy Gradient CPT概念代码defcpt_policy_gradient_loss(returns,baseline0.0):CPT 目标下的 Policy Gradient Lossadvantagesnp.array(returns)-baseline valuescpt_value(advantages)# 在实际 PG 中用 values 替代 advantages 进行梯度更新return-np.mean(values)# 最大化 CPT 值4. 使用建议与扩展离散 vs 连续上面代码适合离散环境如 FrozenLake、Taxi。连续环境如 CartPole建议结合 Actor-Critic CPT 价值估计。更精确的 CPT 估计参考 Prashanth et al. (2016) 的分位数方法或累积权重精确计算。框架推荐Stable-Baselines3 / CleanRL 自定义 Reward ShapingPyTorch/TensorFlow 实现 Policy Gradient 版本2024 论文有最新 PG 定理参数调优lambda_loss2.25→ 更强的损失厌恶gamma_gain 1→ 概率扭曲想让我继续提供完整 PyTorch Actor-Critic CPT 版本推荐生产级特定论文算法复现如 CPT-SPSA 或 Policy Gradient在 Gymnasium 连续控制任务上的实现与标准 RL 的对比实验代码

教育机构搭建AI编程实验室如何借助Taotoken管控学生用量与成本

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度教育机构搭建AI编程实验室如何借助Taotoken管控学生用量与成本应用场景类，设想高校或培训机构构建AI辅助编程教学环境…

2026/5/24 22:09:47 阅读更多

3分钟掌握Heightmapper：免费创建专业3D地形高度图的终极指南

3分钟掌握Heightmapper：免费创建专业3D地形高度图的终极指南【免费下载链接】heightmapper interactive heightmaps from terrain data 项目地址: https://gitcode.com/gh_mirrors/he/heightmapper 还在为3D地形建模而烦恼吗？Heightmapper是你的…

2026/5/24 22:09:26 阅读更多

抖音无水印视频解析工具：3分钟搭建你的个人视频素材库

抖音无水印视频解析工具：3分钟搭建你的个人视频素材库【免费下载链接】DouYinBot 该项目仅自用，不提供抖音视频下载项目地址: https://gitcode.com/gh_mirrors/do/DouYinBot 你是不是经常在抖音上看到喜欢的视频，想要保存下来却没有…

2026/5/24 22:09:26 阅读更多

2026论文写作工具红黑榜：AI论文工具怎么选？别再瞎找了！

2026年论文写作工具红黑榜出炉，红榜优先推荐千笔AI、ThouPen、豆包，适配国内学术规范，提升写作效率；黑榜需避开低质免费工具、无真实引用平台、过度依赖全文生成的工具。选择时应按需求匹配三维模型（需求匹配度 - 数据…

2026/5/24 22:53:23 阅读更多

2026年亲测一键生成论文工具指南（高效定稿版）

为解决学术写作中效率与合规两大核心痛点，本文精选8款高适配性AI论文写作工具（按综合优先级排序），围绕中文学术规范适配、真实参考文献生成、格式标准化、高性价比四大核心维度筛选，同时配套分场景精准选型方案与学术合…

2026/5/24 22:53:23 阅读更多

使用AWS中国区Lambda集成Glue Schema Registry消费Kafka消息的实践

本文在 AWS 中国区（cn-north-1）实现 Docker 自建 Kafka 与 AWS Lambda Glue Schema Registry 的完整集成。Kafka 运行在 EC2 实例上，Lambda 通过 VPC 内网消费消息，使用 Avro 格式进行数据序列化。整体的数据流图如下 CloudWat…

2026/5/24 22:53:03 阅读更多

云原生应用开发

云原生应用开发 1. 技术分析 1.1 云原生概述云原生是构建和运行应用的现代方法： 云原生特征容器化: 应用打包微服务: 模块化架构持续交付: 自动化部署可观测性: 监控和追踪云原生要素:DevOps: 开发运维一体化CI/CD: 持续集成交付自动化: 自动伸缩、自愈1.2 微服务架…

2026/5/24 22:53:03 阅读更多

企业团队如何利用Taotoken CLI工具统一配置开发环境与API密钥

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度企业团队如何利用Taotoken CLI工具统一配置开发环境与API密钥在团队协作开发中，一个常见的问题是API密钥的管理与开发…

2026/5/24 22:51:42 阅读更多

【切负荷】计及切负荷和直流潮流(DC-OPF)风-火-储经济调度模型研究【IEEE24节点】附Python代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长毕业设计辅导、数学建模、数据处理、程序设计科研仿真。🍎完整代码获取定制创新论文复现点击：Matlab科研工作室👇 关注我领取海量matlab电子书和数学建模资料 &#x1f3…

2026/5/24 22:47:59 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/24 0:01:12 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/24 0:02:33 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

2026/5/24 0:01:12 阅读更多

附录 B：术语表

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

2026/5/24 0:02:33 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/24 15:30:50 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/24 15:03:26 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/24 9:50:45 阅读更多

相关文章

教育机构搭建AI编程实验室如何借助Taotoken管控学生用量与成本

3分钟掌握Heightmapper：免费创建专业3D地形高度图的终极指南

抖音无水印视频解析工具：3分钟搭建你的个人视频素材库

2026论文写作工具红黑榜：AI论文工具怎么选？别再瞎找了！

2026年亲测一键生成论文工具指南（高效定稿版）

使用AWS中国区Lambda集成Glue Schema Registry消费Kafka消息的实践

云原生应用开发

企业团队如何利用Taotoken CLI工具统一配置开发环境与API密钥

【切负荷】计及切负荷和直流潮流(DC-OPF)风-火-储经济调度模型研究【IEEE24节点】附Python代码

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥