Nature UE
Crédits ECTS 3
Volume horaire total 26
Volume horaire CM 10
Volume horaire TD 8
Volume horaire TP 8

Pré-requis

Connaissance de base en algorithmique et probabilité. Un premier contact avec programmation dynamique via le problème de plus court chemin sera un plus.

Objectifs

Programmation dynamique, processus de décisions discrètes de Markov, apprentissage par renforcement.

老虎机游戏

Le cours présente des méthodes approchées pour les problèmes de décisions discrètes séquentielles optimales. Après quelques rappels de la programmation dynamique et le principe d’optimalité de Bellman, on aborde les concepts de base d’un processus de décisions de Markov : état, actions, politique, fonction de valeur, probabilité de transition, récompense, etc. On décrit ensuite la recherche de la politique optimale dans un processus de Markov par la programmation dynamique. Enfin, on présente des méthodes d’apprentissage par renforcement (Monte-Carlo, TD-learning, Q-learning, …) pour approximer la politique optimale pour le cas non-déterministe lorsque les probabilités de transition et/ou les récompenses ne sont pas connues.

Appartient à

Informations complémentaires

Programmation dynamique, processus de décisions discrètes de Markov, apprentissage par renforcement.