Cette commande lance la procédure de recherche de valeurs aberrantes (outliers / extreme values en anglais) au sein d'un échantillon d'une variable quantitative.
1 - Tests pratiqués : Rosner et Dixon
Deux tests sont accessibles à partir de cette procédure, c'est le nombre de données à étudier qui décidera du test pratiqué.
1.1. Test de Dixon
Le test de Dixon sera pratiqué si N < ou = 25 et ne permettra de détecter que si la valeur la plus extrême (i.e. la plus éloignée de la moyenne de l'échantillon) est une valeur aberrante.
- Hypothèse nulle : "H0 = il n'existe aucune valeur aberrante"
- Hypothèse alternative : "H1 = la valeur testée est une valeur aberrante, ou la valeur testée n'appartient pas à la population d'où est extrait l'échantillon étudié"
La formule utilisée varie en fontion du nombre de sujets à étudier, on calcule une valeur Tau que l'on compare à une valeur limite issue de la table de Dixon :
Si cette valeur Tau dépasse la valeur limite pour x < 0.05, on rejette alors l'hypothèse H0 et on considère que la valeur testée est une valeur aberrante.
Le test de Dixon exige que la distribution de l'échantillon auquel on a retiré la valeur aberrante soit normale.
1.2. Test de Rosner
Le test de Rosner sera pratiqué si 25 < N < 500 et permettra d'identifier jusqu'à 10 valeurs aberrantes parmi les plus extrêmes (i.e. les plus éloignées de la moyenne de l'échantillon).
- Hypothèse nulle : "H0 = il n'existe aucune valeur aberrante"
- Hypothèse alternative : "H1 = il existe au moins une valeur aberrante, ou toutes les valeurs n'appartiennent pas à la population d'où est extrait l'échantillon étudié"
Le test de Rosner est basé sur le calcul de la moyenne et de l'écart-type de l'échantillon auquel on a retiré toutes les valeurs aberrantes suspectées, sauf la valeur testée. On commence par tester la valeur la moins extrême (i.e. la moins éloignée de la moyenne de l'échantillon, parmi les valeurs les plus éloignées), vers la valeur la plus extrême (i.e. la plus éloignée de la moyenne de l'échantillon).
Par exemple, on suppose que 3 valeurs sont suspectes (x1, x2, x3, classées de la plus extrême vers la moins extrême) sur un échantillon de N valeurs. On calcule d'abord m' et Sd' sur le sous-échantillon (N - 2) auquel on a retiré les valeurs x1 et x2. Ce sous-échantillon doit répondre aux conditions de normalité. Le calcul de la valeur R est comparé à une valeur limite issue de la table de Rosner :

Si cette valeur R dépasse la valeur limite pour x < 0.05, on rejette alors l'hypothèse H0 et on considère que la valeur testée (ici x3), et a fortiori les autres valeurs (qui sont plus "extrêmes" que la valeur x3), sont des valeurs aberrantes.
Si cette valeur R ne dépasse pas la valeur limite pour x < 0.05, on ne rejette pas l'hypothèse H0 (x3 n'est pas une valeur aberrante) et on recommence avec la valeur x2 (plus extrême que x3).
Il vous est simplement demandé de sélectionner la plage de cellules correspondant aux données parmi lesquelles vous suspectez la présence de valeurs aberrantes. Pour procéder à la sélection, il vous suffit de cliquer sur la première cellule de votre série de données et de faire glisser la souris jusqu'à la dernière valeur.
En cas d'erreur, refaîtes simplement votre sélection, celle-ci viendra effacer votre précédente sélection dans la boîte de dialogue sans que vous ayez à annuler quoi que ce soit.