Exploiter les données en vie réelle : focus sur les algorithmes
Les challenges associés au développement des algorithmes d’exploitation des données en vie réelle
Les défis posés par les algorithmes
Le potentiel associé au développement des algorithmes informatiques pour l’exploitation des données en vie réelle est important. Toutefois, la réalisation de ce potentiel est jalonnée de défis auxquels les acteurs de la filière industries et technologies de santé doivent faire face. La section suivante présente une liste non-exhaustive de quelques-uns de ces défis qui concernent principalement les algorithmes d’apprentissage automatique.
Eviter les biais : l’importance de la sélection et de la qualité des données
Les algorithmes d’apprentissage automatique « travaillent » à partir des données qui leurs sont fournies. Le choix de ces données d’entrée est crucial car les caractéristiques de celles-ci vont avoir un impact sur les résultats produits. L’un des défis de l’apprentissage automatique est donc de s’assurer que les données d’entraînement fournies à l’algorithmes sont propres, exactes et correctement étiquetées dans le cadre d’un apprentissage supervisé, mais également exemptes de tout élément pouvant fausser les résultats. Un jeu de données faussé impactera directement les résultats générés. Dans un champ d’activité aussi sensible que les soins, les marges d’erreur sont faibles et requièrent que les acteurs s’organisent pour éviter des biais qui peuvent être de différentes natures : biais d’échantillonnage, biais de mesure, biais d’exclusion, biais d’enregistrement, biais liés aux préjugés, biais de confirmation, biais de représentativité, biais de surajustement, biais de confusion, etc.
S’il est impossible d’éviter totalement les biais, il convient de mettre en place une ingénierie pour prévenir ceux-ci. Cela peut notamment passer par :
- La mise en place de procédures de contrôle pour éviter les biais : établir des lignes directrices, des règles et des procédures pour identifier, communiquer et atténuer les biais potentiels des ensembles de données. Les cas de partialités doivent être documentés et les efforts déployés pour les atténuer doivent être expliqués. Ces éléments doivent être transparents et communiqués largement.
- La documentation de la phase de préparation des données : les acteurs doivent documenter leurs méthodes de sélection et de nettoyage des données et permettre aux autres d’examiner quand, et si les modèles présentent une forme quelconque de biais. La transparence permet d’éliminer les causes profondes d’une déviation d’un modèle lors de la prochaine itération.
- Le test de plusieurs modèles et la sélection des modèles les plus performants et les moins biaisés : avant de passer en production, un algorithme d’apprentissage automatique passe généralement par une phase d’évaluation ne se limitant pas à la précision ou à l’efficacité du modèle. Il est indispensable d’ajouter une étape de repérage des biais éventuels afin d’être en mesure d’ajuster le set de données d’entraînement, le cas échéant.
- La surveillance des modèles déployés en production : le comportement d’un algorithme peut évoluer entre l’environnement de test et le cas d’usage réel. La déviation du modèle doit être surveillée, et les corrections nécessaires au maintien de la trajectoire apportée de manière continue.
Eviter les biais répond autant d’une responsabilité individuelle que d’une responsabilité collective. Il est essentiel que des bonnes pratiques émergent et se diffusent pour créer un environnement sécurisant pour les concepteurs, utilisateurs, et régulateurs de ces outils technologiques complexes.
Valider les algorithmes : sécuriser le passage du cas d’usage expérimental au déploiement en pratiques courantes
Le développement d’un algorithme est un processus expérimental nécessitant d’être validé avant toute généralisation. Compte tenu des caractéristiques des technologies d’apprentissage automatique, la validation est une activité complexe. Elle se structure autour de de deux grandes phases :
- Evaluer la précision du modèle soutenant l’algorithme et la qualité des données utilisées pour l’entraînement.
- Tester la fiabilité de l’algorithme sur des jeux de données indépendants, jamais rencontrés par l’algorithme. L’objectif est de vérifier si l’algorithme a appris correctement, si l’apprentissage a été biaisé (sur-apprentissage) ou, à l’inverse, s’il a besoin de plus d’exemples (sous-apprentissage).
Ce travail de validation est consommateur de ressources. Il peut être difficile à mener pour des acteurs de la recherche développant des algorithmes expérimentaux pour leurs propres usages et par conséquent n’envisageant pas une généralisation, mais également pour les acteurs de l’ingénierie aux ressources limitées.
La validation étant une étape clé pour développer un écosystème fiable d’algorithmes en santé et créer un effet d’apprentissage à l’échelle de la filière, il est important que cette démarche se normalise et s’inscrive dans un plan d’actions de filière.
Evaluer l’algorithme en pratique : considérer l’algorithme dans son usage quotidien
Si la validation de l’algorithme, telle que présentée ci-dessus, est une étape clé, la validation de son intérêt en pratique en est une autre.
Aujourd’hui, la littérature scientifique est riche de projets expérimentaux validant le caractère prédictif d’un algorithme, mais rares sont les projets allant jusqu’à évaluer la mise en œuvre de ces algorithmes dans la pratique courante. Or, ces nouveaux outils sont susceptibles d’impacter largement les organisations, qu’elles soient dans la réalisation des soins, leur gestion ou leur régulation.
La mise en pratique des algorithmes est complexe. Elle nécessite d’être organisée afin d’anticiper largement les conséquences associées à leur déploiement. Cela nécessite de penser en transversalité car la mise en pratique des algorithmes ne va pas se limiter à un apport d’évidences nouvelles, elle va soutenir l’émergence de nouvelles pratiques et nouvelles organisations des soins, dont la maîtrise sera déterminante pour que ces nouvelles technologies réalisent l’impact attendu dans le secteur de la santé.
S’assurer de la résilience des algorithmes : maîtriser l’évolution de ceux-ci au fil du temps
Les modèles sont susceptibles d’évoluer au fil du temps, soit par conception, soit en subissant les changements de leur environnement. Un des enjeux majeurs pour la régulation des algorithmes est d’être en capacité de répliquer le fonctionnement de ceux-ci à un instant t.
L’évolution la performance d’un algorithme dans le temps pose des problèmes pour ses utilisateurs ainsi que pour les régulateurs en charge notamment de valider et d’évaluer un dispositif. Cela est particulièrement vrai en santé où ces variations peuvent se faire au détriment de la santé des patients.
C’est pourquoi il convient d’organiser la résilience des algorithmes en définissant des bonnes pratiques à mettre en œuvre du côté des concepteurs, mais également du côté des utilisateurs et des régulateurs. L’objectif est d’être en mesure d’anticiper la dérive du modèle au fil du temps en mettant en œuvre des dispositifs de détection d’écarts. Pour cela, des seuils de performance doivent être définis afin de pouvoir lever des alertes en cas d’anomalies. Lorsque détectées, ces anomalies doivent être documentées et des plans d’actions doivent être mis en œuvre pour assurer la continuité du service, et corriger les risques d’erreurs.
Le défi que pose la résilience met en évidence la complexité de piloter des « flottes » d’algorithmes importantes dans la pratique. La scalabilité de l’IA en santé passe en partie par la capacité à répondre à ces défis.
Assurer la transparence : les enjeux de l’explicabilité et de l’interprétabilité
Le principal pré-requis au développement des usages des algorithmes est celui de la confiance que leurs accorderont leurs utilisateurs et les régulateurs.
A ce jour, les algorithmes souffrent d’être perçus comme des « boîtes noires ». Ces boîtes noires doivent être ouvertes et le cadre réglementaire s’établit progressivement en ce sens afin de créer les conditions d’une plus grande transparence. A titre d’exemple, le Règlement Général de l’Union européenne sur la Protection des Données (RGPD) exige que toute décision importante ou de nature juridique puisse être expliquée.
La transparence s’organise autour de 2 piliers : l’interprétabilité et l’explicabilité.
- L’interprétabilité vise à comprendre comment l’algorithme prend une décision. Il s’agit de rendre interprétable la logique décisionnelle développée et mobilisée par l’algorithme.
- L’explicabilité vise à comprendre pourquoi un algorithme a pris une décision. Elle se positionne à un niveau plus fin que l’interprétabilité, puisqu’elle consiste à être en capacité de fournir des informations ciblées sur des variables ayant joué un rôle clé pour une décision particulière.
Si la transparence répond à un enjeu éthique, elle constitue également un défi technologique et économique majeur. Il convient de faire converger l’ensemble de l’écosystème vers des règles claires afin que les pratiques s’harmonisent et que le défi de la transparence puisse être relevé.