2025_NIPS_Task-aware world model learning with meta weighting via bi-level optimization 文章主要内容总结该研究聚焦于模型基强化学习(MBRL)中“世界模型与智能体特定任务的环境对齐”问题,提出了一种基于双层优化的任务感知环境建模框架(TEMPO)。现有模型存在两类局限:最大似然估计(MLE)模型虽能保留丰富语义信息,但平等对待所有观测信息,忽视任务相关信息,导致模型回报与环境回报存在差距;价值等价模型虽能聚焦任务价值相关特征,但丢弃大量语义信息,且面临实现和扩展性难题。TEMPO以DreamerV2的循环状态空间模型(RSSM)为基础,核心设计包括:1)提出变分价值感知损失(V-VAML),适配 latent 状态空间,通过后验状态与先验状态的价值差异评估模型任务感知能力;2)引入元加权网络(meta weighter),为MLE目标中的每个训练样本分配任务相关的重要性权重;3)构建双层优化结构:下层通过加权MLE目标训练世界模型,保留语义信息并聚焦重要样本;上层通过最小化V-VAML损失优化元加权网络,实现任务感知。实验在DeepMind Control Suite的9个连续控制任务和Atari的6个离散控制任务中验证,TEMPO在渐近性能、训练稳定性和收敛速度上均达到当前最优,显著优于DreamerV2及D4PG、Rainbow等模型无关RL算法,消融实验验证了元加权机制和输入设计的有效性。创新点双层优化融合两类模型优势:首次将元学习思想引入世界模型训练,通过上层元加权网络优化任务感知损失、下层训练加权MLE模型,既保留了MLE模型的语义信息丰富性,又具备价值等价模型的任务针对性,解决了两类模型的固有矛盾。