Skip to content

Latest commit

 

History

History
45 lines (24 loc) · 905 Bytes

93_策略梯度_课程笔记.md

File metadata and controls

45 lines (24 loc) · 905 Bytes

策略梯度

参数化策略

策略本身也可以参数化,策略可以是确定的也可以是随机的

基于策略的强化学习

优点

  • 具有更好的收敛性质
  • 在高纬度或连续的动作空间中更有效
  • 能够学习出随机策略

缺点

  • 通常会收敛到局部最优而非全局最优
  • 评估一个策略通常不够高些并具有较大的方差

策略梯度

知道决策的方向就可以向其更新

单步马尔科夫决策过程中的策略梯度

策略的价值期望

似然比(Likelihood Ratio)

可以使用似然比改写策略的价值期望

策略梯度定理

蒙特卡洛策略梯度(REINFORCE)

利用随机梯度上升更新参数

利用策略梯度定理

累计奖励值可作为无偏估计

Puck World冰球世界示例

Softmax随机策略