【信息科学与工程学】计算机科学与自动化/控制——第九十二篇 自动化控制01 自动化控制(续)一、强化学习控制类别模型名称核心方程变量/参数说明特征/性质策略梯度​REINFORCE算法目标:最大化期望回报J(θ) = E[∑_{t=0}^∞ γ^t r_t]梯度:`∇θ J(θ) = E[∑{t=0}^∞ (∑{k=t}^∞ γ^k r_k) ∇θ log π_θ(a_ts_t)]br用蒙特卡洛采样估计梯度,更新θ ← θ + α ∇_θ J(θ)`基于整条轨迹的回报,方差大可加基线减少方差:(∑_{k=t}^∞ γ^k r_k - b(s_t))b(s_t)是基线,如值函数估计优势执行器-评论家(A2C)用优势函数A(s,a)=Q(s,a)-V(s)代替TD误差更新