Évaluation des études cliniques utilisant une IA en radiologie
Une communication a été publiée dans Radiology, elle précise une méthode pour évaluer les études utilisant une IA en contexte radiologie, études dont le nombre explose ces dernières années.
Résumé des considérations clés
Remarque : Dans cet article de veille les principes sont volontairement étendus aux IA en général, en parlant de données plutôt que d’images et adressés aux concepteurs plutôt qu’aux experts cliniques.
Travail sur les données
- Définir des critères d’inclusion et d’exclusion des données
- Justifier les exclusions d’images
- Définir trois ensembles de données, idéalement indépendants :
- Données utilisées en formation (pour “modeler” l’algo)
- Données utilisées en entrainement (pour affiner l’IA)
- Données utilisées pour les tests (pour rendre compte des performances), il est important d’utiliser des données différentes de celles d’entrainement, pour éviter les biais de “sur-optimisation” des algos pour certaines datas
- Utiliser des données en provenance de plusieurs “fournisseurs”
- Décrire et justifier les modifications des données avant utilisation avec l’IA
- Justifier la quantité de données utilisées (l’idée est d’attendre de constater une stabilité dans les performances, non améliorées par l’ajout de données)
Travail sur l’algo
- Effectuer la formation de l’IA sur la base de consensus largement acceptés
- Comparer les performances de l’IA aux experts du domaine
- Présenter comment l’IA prend des décisions, notamment en expliquant les probabilités en jeu. Exemple : Pour aider les cliniciens à comprendre la performance de l’IA, de nombreuses équipes de recherche superposent des cartes de probabilité colorées de l’IA sur les images sources. Les seuils de sensibilité et de spécificité cliniquement pertinents peuvent être indiqués. Les cartes dites des points saillants peuvent montrer les points les plus importants de l’image utilisés par l’algorithme d’IA pour sa prise de décision
- Rendre les algos publics… ce qui semble improbable et peu efficace
Source : RSNA Journals