CS420/99_深度确定性策略梯度_课程笔记.md at master · boyuai/CS420 · GitHub

深度确定性策略梯度

在实际应用中，待遇神经函数近似器的Actor-Critic方法在面对有挑战性的问题时是不稳定的

深度确定性策略梯度（DDPG）给出了在确定性梯度策略基础上的解决方法

经验重放（离线策略）
目标网络
在动作输入前标准化Q网络
添加连续噪声

DDPG训练伪代码

深度确定性策略梯度实验

目标网络至关重要