GT2A

L’apprentissage par renforcement

Définition et types d’algorithmes

L’apprentissage par renforcement fait référence à une classe de problèmes d’apprentissage automatique, dont le but est d’apprendre, à partir d’expériences successives, ce qu’il convient de faire de façon à trouver la meilleure solution. L’algorithme interagit avec son environnement d’analyse pour trouver la solution optimale.

L’apprentissage par renforcement diffère des problèmes supervisés et non supervisés par ce côté itératif. Ainsi, l’algorithme essaie plusieurs solutions, il observe la réaction de son environnement et s’adapte pour trouver la meilleure stratégie. L’algorithme exploite en continu les résultats de ses explorations.

Cette méthode a été testée sur des applications telles que :

  • L’accompagnement au développement de l’activité physique chez les patients diabétiques
  • La programmation des ressources des plateaux techniques hospitaliers
  • La personnalisation du contrôle glycémique

Exemples de modèles statistiques/mathématiques mobilisés :

  • Q-Learning
  • SARSA [State Action Reward State Action]
  • Deep Q-Network
  • Markov Decision Processes
  • DDPG[Deep Deterministic Policy Gradient]

Les différents modèles d’apprentissage

Plusieurs modèles d’apprentissage automatique peuvent être envisagés. Chacun de ces modèles a ses spécificités et permet de répondre à des objectifs précis. Ces modèles peuvent mettre en œuvre un algorithme, ou en combiner plusieurs (ensemble learning). Les principaux modèles sont présentés dans la section suivante :