ReinforcementLearning

强化学习

gym的使用

有空再写

策略网络

2017-10-25 CartPole-v0
- 值得注意的地方：
  1. loss
  2. 折扣
  3. 批量更新
- 网络的结构
  多层感知机：两层神经网络
- 网络学习的内容
  使获得较多潜在价值的Action的概率变大，
  使获得较少潜在价值的Action的概率变小。
- 网络预测的内容
  根据当前的环境状态，得到使未来潜在价值最大的Action。

价值网络

五子棋

2017-12-25
- 打基础