Skip to content

Latest commit

 

History

History
34 lines (22 loc) · 667 Bytes

README.md

File metadata and controls

34 lines (22 loc) · 667 Bytes

ReinforcementLearning

强化学习

gym的使用

有空再写

策略网络

  1. 2017-10-25 CartPole-v0

    • 值得注意的地方:

      1. loss
      2. 折扣
      3. 批量更新
    • 网络的结构
      多层感知机:两层神经网络

    • 网络学习的内容
      使获得较多潜在价值的Action的概率变大,
      使获得较少潜在价值的Action的概率变小。

    • 网络预测的内容
      根据当前的环境状态,得到使未来潜在价值最大的Action。

价值网络

五子棋

  1. 2017-12-25
    • 打基础