策略本身也可以参数化,策略可以是确定的也可以是随机的
优点
- 具有更好的收敛性质
- 在高纬度或连续的动作空间中更有效
- 能够学习出随机策略
缺点
- 通常会收敛到局部最优而非全局最优
- 评估一个策略通常不够高些并具有较大的方差
知道决策的方向就可以向其更新
策略的价值期望
可以使用似然比改写策略的价值期望
利用随机梯度上升更新参数
利用策略梯度定理
累计奖励值可作为无偏估计
策略本身也可以参数化,策略可以是确定的也可以是随机的
优点
缺点
知道决策的方向就可以向其更新
策略的价值期望
可以使用似然比改写策略的价值期望
利用随机梯度上升更新参数
利用策略梯度定理
累计奖励值可作为无偏估计