2025_NIPS_Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced Datasets 文章主要内容总结该研究聚焦时序差分(TD)强化学习的学习动态,针对线性函数近似场景,引入统计物理概念(高斯等价假设、路径积分方法等),建立了高维渐近极限下的学习曲线理论。核心发现包括:随机半梯度噪声会导致价值误差出现显著平台期,且平台期受特征结构、学习率、折扣因子、奖励函数等参数影响;通过学习率退火和奖励塑形策略可优化学习动态;任务-特征对齐度、批量大小等因素会调控收敛速度。研究在简单马尔可夫决策过程(MDP)和MountainCar-v0环境中验证了理论的有效性,同时指出理论局限(如固定特征、仅考虑策略评估)及未来扩展方向。创新点首次将统计物理工具(高斯等价假设、动态平均场理论)系统应用于TD学习动态分析,推导出典型场景下的解析学习曲线公式。揭示了TD学习中独特的随机半梯度平台期现象,量化了其与批量大小、折扣因子、学习率的缩放关系(O(ηγ2B−1)O(\eta \gamma^2 B^{-1})O(