Name		Name	Last commit message	Last commit date
parent directory ..
readme.md		readme.md

readme.md

Q learning à N étapes (en anglais `Eligibility Trace`)

Le principe de l’Eligibility Trace est que l’agent fait plusieurs étapes d’un coup. Ici, N vaut 4, donc c’est après les 4 étapes que l’agent va regarder la récompense totale obtenue. Et ainsi entrainer son réseau de neurones. C’est comme s’il combinait les quatre étapes en une.

Mais, est-ce que combiner les quatre étapes est une bonne idée ?

On peut intuiter (pressentir) que le second va mieux se comporter, car le premier est guidé par la récompense sans vision d’ensemble. Alors que le second à un peu de recul, dans la mesure où il fait quatre étapes, puis observer la combinaison d’étapes afin de savoir si elle le guide vers la solution. Donc, il observe si la stratégie de combinaison est correcte ou non. L’agent s’intéresse à la récompense globale.

Pourquoi `Eligibility Trace`

Après avoir obtenu la récompense cumulée de toutes les étapes effectuées, son algorithme, lui permet de se demander “quelle était l’étape à l’intérieur la plus éligible pour la récompense obtenue ?”
Si l’agent reçoit une pénalité, il va observer quelle étape était responsable de l’attribution de la pénalité.

cf.
Le livre Reinforcement Learning: An Introduction Richard S. SUTTON and Andrew G. BARTO (1998)
Reinforcement Learning: An Introduction ‘University of California - Berkeley’
Asynchronous Methods for Deep Reinforcement Learning Volodymyr Mnih et al. (2016)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

eligibilityTrace

eligibilityTrace

readme.md

Q learning à N étapes (en anglais `Eligibility Trace`)

Mais, est-ce que combiner les quatre étapes est une bonne idée ?

Pourquoi `Eligibility Trace`

Files

eligibilityTrace

Directory actions

More options

Directory actions

More options

Latest commit

History

eligibilityTrace

Folders and files

parent directory

readme.md

Q learning à N étapes (en anglais Eligibility Trace)

Mais, est-ce que combiner les quatre étapes est une bonne idée ?

Pourquoi Eligibility Trace

Q learning à N étapes (en anglais `Eligibility Trace`)

Pourquoi `Eligibility Trace`