Combien d’utilisateurs sont nécessaires pour évaluer l’utilisabilité ?

La question du nombre d’utilisateurs nécessaires pour obtenir un retour suffisant sur votre interface est récurrente dans un processus de tests.
Ai-je besoin de 5, 15, 30, 80 ou des millions d’utilisateurs pour améliorer l’interface et atteindre l’objectif que je me suis fixé ? Ce post tente de répondre à cette question.

Introduction

Saviez-vous que cette question fait encore l’objet de nombreux débats parmi les diverses disciplines de l’UX ? Elle trouve son origine dans une histoire qui a débuté dans les années 80 et qui est toujours d’actualité. On aimerait fixer un chiffre comme règle globale. Mais nous montrons dans cet article que

  • C’est un faux débat : 5 utilisateurs, 15 utilisateurs, 30 utilisateurs, 80 utilisateurs, des millions … c’est de la surenchère et les choses sont finalement beaucoup plus simples,  
  • Il faut faire la distinction entre un contexte d’évaluation et un autre pour l’effectuer de manière appropriée.

Chacun de ces chiffres a un sens… Mais pas dans les mêmes conditions et pour les mêmes objectifs de test UX. Pour choisir le bon nombre d’utilisateurs, le contexte doit être correctement défini et vous devez vous poser 2 questions :  

  • Quel est le but de mes tests ux ? 
  • Qu’est-ce que je teste ?
  • Est-ce à des fins qualitatives ou statistiques ?

Ces questions font partie d’un processus de conception itératif dans une approche centrée sur l’utilisateur, comme décrit dans une première partie de ce billet. 

Pour chaque étape de la conception, des tests spécifiques sont conçus et donc la question de la taille de votre échantillon d’utilisateurs se pose. L’éclairage de cette question présenté dans une seconde partie.

Enfin, nous testons sur un scénario spécifique le précepte scientifique bien connu de : « vous avez besoin de 3-5 utilisateurs pour obtenir 85% des problèmes critiques de votre interface »

L'approche de la conception UX centrée sur l'utilisateur : un processus itératif

Lorsqu’il s’agit de développer une nouvelle interface, liée à une nouvelle fonctionnalité, une refonte ou un nouveau produit, un processus itératif en 4 étapes doit être mis en place :

illustration d'une méthode itérative dans la conceptualisation d'une maquette

Figure 1 : Les principales étapes du cycle de conception d’une interface.

À chacune de ces étapes, des tests sont effectués pour vérifier la qualité de l’interface ou du produit, sa facilité d’utilisation ou la quantité de trafic.

Deux points doivent être distingués :

  • Évaluation qualitative : pendant les étapes 1, 2 et 3. Les itérations doivent être exploitées pour supprimer progressivement, mais rapidement, les problèmes et les envoyer au développement.
  • Évaluation quantitative : à partir de l’étape 4 (sortie du produit), une fois la solution déployée et sur laquelle on veut faire de l’analyse ou des statistiques.

Nombre d’utilisateurs = f (nature du test, phase de conception)

Avant le déploiement = évaluation qualitative

Au début de la conception et avant le déploiement, où une évaluation qualitative est requise, 3 à 5 utilisateurs sont nécessaires.

Cette réponse est la même depuis que j’ai commencé à promouvoir « l’ingénierie de l’utilisabilité au rabais » en 1989. Les travaux pionniers de Virzi (1992), modélisés par Nielsen (1993, https://dl.acm.org/doi/10.1145/169059.169166) et popularisés par Nielson Norman Group dans ses célèbres blogs (Why you only need to test with 5 users ? ou How many test users in a usability study ?) concordent :

Pour évaluer la qualité ergonomique d’une interface à un moment donné : entre 3 et 5 utilisateurs de la même typologie (critère démographique, profession, etc.) sont suffisants.

Pourquoi ?

  1. La probabilité de découvrir de nouveaux problèmes sur un même cas d’utilisation diminue lorsque le nombre d’utilisateurs de test augmente. En un mot, chaque utilisateur de test met en évidence les mêmes erreurs. Cela conduit à trouver 80 à 85% des erreurs critiques avec 3 à 5 utilisateurs.
  2. Le processus d’amélioration de la conception est itératif. Par conséquent, une fois que nous avons ces premiers retours, nous appliquons les changements et nous testons à nouveau les choses. Dès la deuxième série de tests, les problèmes se feront plus rares, mais plus profonds (problèmes de structures, de flux de tâches, etc.) car un visuel défectueux empêche l’utilisateur d’aller plus loin.
  3. Les tests sont coûteux. Tester sur moins d’utilisateurs, mais plus souvent donne un meilleur rapport coût/bénéfice. Il vaut mieux avoir 3 versions améliorées testées successivement avec 5 utilisateurs qu’une seule avec 15 utilisateurs. Les observations seront plus constructives dans le premier cas et très redondantes dans le second.

Après le déploiement ou pour des tests spécifiques ?

Aux stades de la sortie et de la post-sortie, une évaluation quantitative est nécessaire et doit être effectuée sur un échantillon d’utilisateurs cohérent.

Deux catégories doivent être considérées :

  1. Évaluation des parcours des utilisateurs par rapport à certaines mesures quantitatives telles que : le temps de parcours, les erreurs de parcours, etc. Pour disposer d’un système d’analyse et commencer à établir des statistiques, il faut au moins 30 utilisateurs.
  2. Analyses quantitatives spécifiques : eye tracking (environ 40 personnes), tests A / B (une soixantaine au moins).

Use-Case : Valeur d'un testeur

 L’objectif de cette partie est d’évaluer la contribution des testeurs dans une démarche de test utilisateur de l’utilisabilité d’une interface.  

Achetons un vélo en LeBonCoin !

Le cas d’utilisation que nous avons choisi est le suivant : aller sur le site de Leboncoin afin de trouver un vélo pour le directeur scientifique à Rennes (siège d’UXvizer). 

Les 6 testeurs étaient âgés de 21 à 36 ans et connaissaient bien le site web et son fonctionnement. Leur parcours d’utilisateur a été enregistré de manière à pouvoir être analysé selon les critères suivants :

  • Certains critères de convivialité (temps d’attente, types de transition, vitesse de défilement, essuie-glaces et motifs),
  • Des critères d’accessibilité (taux de contraste de la partie textuelle) et,
  • Des critères visuels (couleurs, zones vides, temps de chargement).

Type de parcours utilisateur

Le principal parcours utilisateur représentatif – parmi les 6 testeurs – est basé sur les 12 écrans suivants :

Principaux points d'attention

En faisant la moyenne des tests des 6 utilisateurs, 13 points d’attention ont été trouvés dans l’interface du Leboncoin :

  • Ratio de contraste : certains mots – notamment le lieu – sont en gris clair, ce qui implique un faible niveau d’accessibilité pour ces mots.
  • Colorimétrie : la palette de couleurs à l’écran peut être erratique. Cela peut arriver quand il y a des photos.
  • Zones vides : en raison du processus de chargement des images, des trous apparaissent au milieu des écrans. 
  • Motifs : liés à la recherche la plupart du temps.
  • Transitions de page inhomogènes : wipes, fade-in, fade-out, fade-in, un mélange de toutes ces transitions sont utilisées ce qui entraîne un manque de clarté. Notons que ce problème est résolu dans l’application puisque la page du logo est utilisée avec un fondu enchaîné pour un changement de contexte.
  • Temps de transition : Un utilisateur a dû passer 16% de son temps à cause des transitions (signal de connexion faible).
  • Les bugs dans le processus de chargement de page (modèle répétitif alternant : chargement ‣ page chargée ‣ chargement ‣ page chargée). Des modèles de bogues dans le processus de chargement (modèle répétitif alternant : chargement ‣ page chargée ‣ chargement ‣ page chargée).
  • Le temps d’attente (transitions + temps de chargement) est assez présent : en moyenne, les utilisateurs attendent pendant 10% de leur trajet.
  • 30 à 40% du temps est consacré à préciser la localisation et à trouver des réponses à la demande. 
  • 10 étapes sont nécessaires en moyenne avant d’atteindre la réponse à la première demande (vélo pour les femmes à Rennes).
  • Tant de petits contextes sont principalement associés au processus de chargement.
  • Un utilisateur fait défiler beaucoup et assez rapidement.

Approche en matière de tests : mieux vaut peu que rien

Maintenant, voici le protocole que nous avons suivi pour vérifier la règle : « 3-5 utilisateurs suffisent pour trouver 85% des problèmes critiques ».

Au hasard, un utilisateur est choisi parmi les testeurs restants et les erreurs supplémentaires trouvées sont accumulées sur les précédentes. Toutes les combinaisons d’ordres possibles d’utilisateurs ont été exécutées (720 combinaisons au total) et une courbe moyenne a été calculée. Le graphique en barres de la figure 3 ci-dessous montre le nombre d’erreurs trouvées à chaque testeur supplémentaire.

Le nombre d'erreur à chaque test

Ce que nous pouvons observer, c’est que :

  • Un seul testeur procure beaucoup d’avantages dans la validation de l’utilisabilité. Le gain entre l’absence d’utilisateur pour tester l’interface et la présence d’au moins un utilisateur à tester est énorme. En effet, la plupart des erreurs critiques (60%) sont trouvées avec un seul utilisateur.
  • Des testeurs supplémentaires sont bénéfiques puisque plus d’erreurs sont trouvées.
  • Le gain pour ajouter un nouveau testeur diminue avec le nombre d’utilisateurs qui ont déjà testé l’interface. 

Que faut-il garder à l'esprit ?

Pour une évaluation qualitative de votre interface pendant la phase de maquette, de prototypage ou de développement :

  1. Un testeur est mieux qu’aucun.
  2. Vous n’avez pas besoin de beaucoup d’utilisateurs : 2 à 5 utilisateurs suffisent. Mais, testez votre interface assez souvent et de manière itérative. Économisez ainsi du temps et de l’argent.
  3. Les tests sont un processus itératif, donc même si tous les problèmes ne sont pas trouvés, au moins les plus critiques le seront. S’il en reste d’autres, ils seront découverts lors d’un autre cycle de test utilisateur.

Partagez ce post !

Facebook
Twitter
LinkedIn
Vous aimerez peut-être aussi

Abonnez-vous à notre newsletter !

Une fois pas mois (pas plus) recevez les nouveautés concernant l’UX et l’UI.