Skip to content

Latest commit

 

History

History
17 lines (10 loc) · 464 Bytes

99_深度确定性策略梯度_课程笔记.md

File metadata and controls

17 lines (10 loc) · 464 Bytes

深度确定性策略梯度

在实际应用中,待遇神经函数近似器的Actor-Critic方法在面对有挑战性的问题时是不稳定的

深度确定性策略梯度(DDPG)给出了在确定性梯度策略基础上的解决方法

  • 经验重放(离线策略)
  • 目标网络
  • 在动作输入前标准化Q网络
  • 添加连续噪声

DDPG训练伪代码

深度确定性策略梯度实验

目标网络至关重要