Skip to content

Latest commit

 

History

History
24 lines (12 loc) · 340 Bytes

98_确定性策略梯度_课程笔记.md

File metadata and controls

24 lines (12 loc) · 340 Bytes

确定性策略梯度

随机策略与确定性策略

随机策略

  • 对于离散动作
  • 对于连续动作

确定性策略

  • 对于离散动作
  • 对于连续动作

确定性策略梯度

用于估计状态-动作值的评论家模块

确定性策略

确定性策略梯度实验效果