L’apprentissage supervisé

A Decrease font size. A Reset font size. A Increase font size.

L’apprentissage supervisé

Définition

L’apprentissage supervisé consiste à développer des algorithmes capables de concevoir un modèle de prédiction à partir de données annotées. Ce modèle de prédiction se fonde sur l’apprentissage et la maîtrise d’une fonction de mapping entre des variables d’entrées (X) et d’une variable à prédire (Y).

L’apprentissage est initié à partir d’un set de données d’entraînement réunissant des données annotées (ex. malade, pas malade). A partir de ce set de données, l’algorithme apprend à ajuster ses paramètres pour maximiser ses performances de prédiction (sa maîtrise de la fonction de mapping).

L’algorithme effectue ainsi des prédictions itératives sur les données d’apprentissage et est corrigé par l’enseignant. L’apprentissage s’arrête lorsque l’algorithme atteint un niveau de performance jugé acceptable.

L’apprentissage supervisé est le modèle d’apprentissage automatique le plus utilisé aujourd’hui et celui qui produit les meilleurs résultats. Il nécessite toutefois de mobiliser de nombreuses ressources afin d’étiqueter les données avec les résultats attendus correspondants, tâche aussi complexe et coûteuse qu’essentielle dans ce processus.

Types d’algorithmes

Les modèles d’apprentissage supervisé se structurent notamment autour de deux familles d’algorithmes: les algorithmes de régression et de classification.

Algorithmes de régression

Un problème de régression se pose lorsque la variable à prédire de sortie (Y) est une variable continue (variable pouvant prendre une infinité de valeurs – ex. toute valeur entre 1 et 2).
Les algorithmes de régression peuvent prendre plusieurs formes en fonction du modèle que l’on souhaite construire.
La régression linéaire est le modèle le plus simple : il consiste à trouver la meilleure droite qui s’approche le plus des données d’apprentissage.
Les données n’ayant pas forcément une relation linéaire entre elles, et plusieurs variables pouvant être nécessaires pour effectuer une prédiction réaliste, des modèles de régression polynomiale et multivariées permettent de calculer des fonctions de mapping complexes.

Usages possibles

Prédire l’évolution d’une grandeur (température, pression sanguine…)
Prédire la diffusion d’une épidémie

Exemples de modèles statistiques/mathématiques mobilisés

Simple Linear Regression
Multiple Linear Regression
Polynomial Regression
Support Vector Regression
Bayesian Regression
Decision Tree Regression
Random Forest Regression
Cox model
Longitudinal joint model
Survival random forest

Algorithmes de régression

On parle d’un problème de classification quand la variable à prédire est une variable discrète (variable ne pouvant prendre qu’un nombre fini de valeurs – ex. 1 ou 2, malade ou pas malade). La classification supervisée est la catégorisation algorithmique d’objets. En se basant sur des modèles statistiques, l’algorithme développé doit prédire à quelle classe appartient la donnée. Cette classification peut compter deux dimensions (binaires) ou plus (multi-classes).

Usages possibles

Identifier des cellules cancéreuses
Orienter vers une recommandation de traitement
Détecter une chute (personne debout ou non)
Choisir un régime alimentaire

Exemples de modèles statistiques/mathématiques mobilisés

Logistic Regression/Classification
K-Nearest Neighbours
Support Vector Machines
Kernel Support Vector Machines
Naive Bayes Decision
Tree Classification
Random Forest Classification

Les différents modèles d’apprentissage

Plusieurs modèles d’apprentissage automatique peuvent être envisagés. Chacun de ces modèles a ses spécificités et permet de répondre à des objectifs précis. Ces modèles peuvent mettre en œuvre un algorithme, ou en combiner plusieurs (ensemble learning). Les principaux modèles sont présentés dans la section suivante :