Nature UE
Cr¨¦dits ECTS 3
Volume horaire total 26
Volume horaire CM 10
Volume horaire TD 8
Volume horaire TP 8

Pr¨¦-requis

Connaissance de base en algorithmique et probabilit¨¦. Un premier contact avec programmation dynamique via le probl¨¨me de plus court chemin sera un plus.

Objectifs

Programmation dynamique, processus de d¨¦cisions discr¨¨tes de Markov, apprentissage par renforcement.

PT招财进宝

Le cours pr¨¦sente des m¨¦thodes approch¨¦es pour les probl¨¨mes de d¨¦cisions discr¨¨tes s¨¦quentielles optimales. Apr¨¨s quelques rappels de la programmation dynamique et le principe d¡¯optimalit¨¦ de Bellman, on aborde les concepts de base d¡¯un processus de d¨¦cisions de Markov : ¨¦tat, actions, politique, fonction de valeur, probabilit¨¦ de transition, r¨¦compense, etc. On d¨¦crit ensuite la recherche de la politique optimale dans un processus de Markov par la programmation dynamique. Enfin, on pr¨¦sente des m¨¦thodes d¡¯apprentissage par renforcement (Monte-Carlo, TD-learning, Q-learning, ¡­) pour approximer la politique optimale pour le cas non-d¨¦terministe lorsque les probabilit¨¦s de transition et/ou les r¨¦compenses ne sont pas connues.

Appartient ¨¤

Informations compl¨¦mentaires

Programmation dynamique, processus de d¨¦cisions discr¨¨tes de Markov, apprentissage par renforcement.