Implementaion RL Algorithm with Pytorch

Policy Based

1. Reinforce : Done

2. Proximal Policy Optimization

2-1 PPO with Continuous action space :Done

2-2 PPO with Atari Environment : Done

3. Deep Deterministic Policy Gradient : Pendulum Env Done

4. Twin Delayed Deep Determenistic Policy Gradient (TD3) : Done

Value Based

1. Deep Q-Learning : Done

2. Dobule DQN : Done

3. Dueling DQN : Done

4. C51 : need fix

5. Ape-X DQN

Sampling Method

1. Prioritized Experience Replay

Sparse Reward Env

1. Curiosity driven exploration

2. Random Network Distillation : ~ing

3. Hindsight Experience Replay