Combien d’utilisateurs pour vos évaluations sommatives d’aptitude à l’utilisation ?

Par Guillaume Promé
le 18 Oct. 2018 • Aptitude à l'utilisation

Le nombre de personnes à soumettre aux évaluations sommatives dans le cadre des activités d’ingénierie de l’aptitude à l’utilisation (voir l’article résumant la norme IEC 62366-1) est lourd de conséquences : il dimensionne la durée, le coût et l’énergie investis lors de la planification, la réalisation des essais et l’analyse des données.

Cet article présente l’approche théorique constituant l’état de l’art, utilisée dans l’IEC 62366-2 et le guide de la FDA dédié à l’IAU, pour enfin savoir combien d’utilisateurs enrôler.

15, parce que.

Idée ancrée : il faut avoir recours à 15 personnes par groupe d’utilisateurs.

Un dispositif étant généralement destiné à plusieurs groupes (voire plus) la situation est vite intenable pour nos jeunes pousses déjà saignées par une règlementation impure qui abreuvera nos sillons.

Le guide IEC 62366-2 (oui, il faut lire les guides des normes) évoque ce chiffre : une pratique courante permettant de découvrir une large majorité d’erreurs.

Première objection : il est curieux d’utiliser une quantification pensée pour la détection des erreurs, alors que les évaluations sommatives servent à la validation des mesures de maitrise, passons.

Allons maintenant plus loin dans le texte, pour remonter aux sources du dogme.

Se courber sous le poids du doute

L’annexe K (oui, il faut lire les annexes des guides des normes) résume ce problème existentiel dans une courbe aussi illisible que mal documentée :

avec :

P la proportion des erreurs détectées à l’issue de toutes les évaluations; et
N le nombre d’utilisateurs recrutés pour les évaluations.

On notera que 99% des erreurs sont détectées avec 15 utilisateurs, 90% avec 8, 76% avec 5 et 25% avec un unique utilisateur, sauf s’il est ivre mort, le taux d’erreur passant alors à 180%.

Être calculateur

Les amoureux de Bertrand Renard seront ravis de savoir qu’il existe une formule mathématique :

P = 1 – (1 – p)^N

avec :

p : la probabilité de détecter une erreur à l’issue d’une unique évaluation,
P : la probabilité de détecter une erreur à l’issue de toutes les évaluations, et
N : le nombre d’évaluations réalisées (avec un utilisateur différent à chaque fois)

p est une estimation de la probabilité d’occurrence de l’erreur d’utilisation la même que vous estimez lors de l’analyse des risques (même s’il est quasi impossible de faire une estimation quantitative des risques, passons).

La courbe précédente est en fait un cas particulier où p=25% (parce que).

Pour utiliser cette formule vous devrez :

Estimer la probabilité d’occurrence p de chacune des erreurs d’utilisation soumises à l’évaluation
Définir un P cible (idéalement proportionnel au niveau de risque associé)
Calculer le N nécessaire

Exemple avec un bâtonnet abaisse langue :

Erreur : l’utilisateur se trompe d’orifice
Niveau de risque : élevé du fait du traumatisme pour le patient
P : 1/51 (profil “utilisateur alcoolique”)
R cible : 95% (parce que)

Soit environ N = 80 utilisateurs nécessaires.

Notez que cette approche théorique considère que tous les utilisateurs sont libres et égaux devant l’erreur d’utilisation, passons.

Examiner les faits

Comme expliqué dans la Note en début d’annexe (oui, il faut lire les notes des annexes des guides des normes) : cette approche statistique n’est pas souhaitable, le fabricant doit procéder à des évaluations sommatives, examiner les résultats et évaluer le besoin d’augmenter la taille de l’échantillon.

La formule mathématique est issue d’une étude : “A Mathematical Model of the Finding of Usability Problems” que vous trouverez assez facilement sur l’internet, réalisée il y a un quart de siècle elle concerne bien l’exploration de nouvelles erreurs d’utilisation : la phase d’évaluation formative.

Hormis un léger goût d’obsolescence cette étude est amusante, car elle met en avant la notion de coût/bénéfice, sujet complétement tabou dans le médical :

Où passé une dizaine d’utilisateurs vous devrez faire une croix sur le plan épargne logement de la petite dernière.

Aller plus haut et croire encore à l’avenir

Une bonne pratique consiste à définir un nombre minimum d’utilisateurs en fonction de la complexité du dispositif, du caractère innovant de l’interface utilisateur et des risques associés, ce nombre oscillera entre 3 (comme les 3 mousquetaires, la sainte trinité ou les 3 doigts valides de la main gauche de Django Reinhardt, quel talent tout de même) et 15 (dans les cas les plus critiques, comme ça tout le monde est content).

Un critère complémentaire serait d’arrêter les évaluations sommatives s’il n’y a rien de nouveau après X évaluations consécutives, avec X proportionnel au risque.

Dernier axe : travailler sur la représentativité des utilisateurs et les biais associés, mieux vaut 5 utilisateurs variés que 15 de la même portée.

Templates pour la mise en œuvre de l’IEC 62366-1

2 commentaires

ecrowell

14 Nov. 2018
Connectez-vous pour répondre

Super article ! Très bon sens de l'humour, comme toujours ;)
Je retiens surtout le dernier conseil : viser 15 utilisateurs bien variés, et établir une politique permettant de cesser les évaluations après un certain nombre d'itérations donnant le même résultat.
Benoit ROUSSEAU

6 Nov. 2023
Connectez-vous pour répondre

Très intéressant de lire les annexes et notes des normes en effets ;-)
Le dernier critère me semble très pertinent pour définir un nombre minimum d’utilisateurs : complexité du dispositif, caractère innovant de l’interface utilisateur et risques associés.
N'existe-t-il pas de table contenant ces critères dans un guide ou norme , au même titre que la table assez étrange de l'IEC 62366-2 ?

Le Blog des Dispositifs Médicaux