强化学习
有空再写
-
2017-10-25 CartPole-v0
-
值得注意的地方:
- loss
- 折扣
- 批量更新
-
网络的结构
多层感知机:两层神经网络 -
网络学习的内容
使获得较多潜在价值的Action的概率变大,
使获得较少潜在价值的Action的概率变小。 -
网络预测的内容
根据当前的环境状态,得到使未来潜在价值最大的Action。
-
- 2017-12-25
- 打基础
强化学习
有空再写
2017-10-25 CartPole-v0
值得注意的地方:
网络的结构
多层感知机:两层神经网络
网络学习的内容
使获得较多潜在价值的Action的概率变大,
使获得较少潜在价值的Action的概率变小。
网络预测的内容
根据当前的环境状态,得到使未来潜在价值最大的Action。