StatEL : Analyse Factorielle Discriminante - AFD
 
Cette commande lance la procédure d'analyse d'une variable qualitative (également appelée "Diagnostic") à K modalités, évaluée sur un échantillon d'observations, en fonction de P variables explicatives (quantitatives) mesurées sur ce même échantillon :

AFD analyse factorielle discriminante


1 - Principe de l'Analyse Factorielle Discriminante :

L'AFD présente 2 finalités :

  • définir si un ensemble de variables quantitatives permettent de scinder une population en plusieurs sous-populations (caractérisées chacune par une modalité de la variable diagnostic ou qualitative),
  • permettre de classer une nouvelle observation dans une des sous-populations définies, grâce aux données qu'elle présente pour chaque variable quantitative.

L'AFD permet de détecter quels sont les axes (composantes d'une ou plusieurs variables explicatives) qui permettent la meilleure séparation entre les différents groupes de l'échantillon (un groupe étant défini par une modalité de la variable qualitative ou diagnostic).

Ainsi, par projection des points (observations) sur les plans définis par ces nouveaux axes, on a une "photographie" du nuage de points permettant la meilleure séparation des différents groupes.

Le calcul doit donc permettre d'identifier les axes qui vont minimiser la dispersion à l'intérieur des sous-populations (variance intra-classe) afin de les rendre les plus homogènes possible, tout en maximisant les dispersions entre les sous-populations (variance inter-classe).

D'un point de vue technique, plusieurs formules de calcul sont possibles (fonction de la "Métrique" utilisée), mais il faut de toute façon recourir au calcul matriciel et à la procédure de diagonalisation. Soient :

  • T la matrice d'inertie totale du nuage,
  • B la matrice d'inertie inter-classes (B pour between),
  • W la matrice d'inertie intra-classes (W pour within),

formule matrice inertie AFD analyse factorielle discriminante

On diagonalise la matrice issue du produit suivant :

diagonalisation matrice inertie AFD analyse factorielle discriminante

Nous ne détaillerons pas les détails de la diagonalisation, mais l'utilisateur intéressé pourra se référer à de nombreux ouvrages qui présentent les techniques d'analyse de données multidimensionnelles, tels que :

  • Initiation à l'analyse des données, Jean de Lagarde, 162p, Editions Dunod, 2000.
  • Analyses des Données Multidimensionnelles, Auray, Duru, Zighed, 167p, Editions Alexandre Lacassagne, 1991.
  • Analyses factorielles multiples, Xavier Bry, 112p, Editions Economica, 1996.
  • etc...


De la diagonalisation, on extrait les K - 1 (ou P - 1 si P < K) valeurs propres (x) et la matrice des vecteurs propres qui vont caractériser les nouveaux axes. Les vecteurs propres serviront à la projection des points sur les plans définis par les nouveaux axes, tandis que les valeurs propres (1 par axe) évaluent le pouvoir discriminant de chaque axe. En particulier, si le pouvoir discriminant de l'axe 1 est égal à 1, celui-ci permet de séparer parfaitement les sous-populations. Avec une valeur propre comprise entre 0 et 1, la séparation est possible et les groupes sont plus ou moins recouvrants.

Les coordonnées F des observations se calculent de la façon suivante, soient :

  • X la matrice des données centrées,
  • T la matrice des variances totales,
  • V la matrice des vecteurs propres :

formule AFD analyse factorielle discriminante

Les coordonnées x des variables se calculent de la façon suivante, soient :

  • V la matrice des vecteurs propres,
  • L la matrice diagonale des valeurs propres :

formule AFD analyse factorielle discriminante


2 - Lancement de l'Analyse Factorielle Discriminante :

Il vous est d'abord demandé de préciser le nombre d'observations du tableau de mesures.

AFD analyse factorielle discriminante

La boîte de dialogue se dévoile ensuite pour laisser apparaître un bouton vous permettant de procéder à la sélection de votre tableau de mesure.

AFD analyse factorielle discriminante

Cliquez sur ce bouton et sélectionnez les variables que vous voulez étudier sans omettre le nom de chaque variable dans la première cellule de chaque colonne.

AFD analyse factorielle discriminante

Vous pouvez sélectionner tout le tableau en une seule fois, ou bien si les colonnes de votre tableau sont disjointes, faîtes votre sélection en plusieurs fois en recliquant sur le bouton "Sélectionner une variable...".

Le nom des variables sélectionnées apparaît dans la liste de la boîte de dialogue qui, par ailleurs, se dévoile une fois de plus pour vous permettre de sélectionner les intitulés des observations.

AFD analyse factorielle discriminante

De la même façon que précédement, cliquez sur le bouton "Sélectionner les intitulés..." et selectionnez les noms de vos observations, en laissant l'intitulé de la colonne en question, qui n'est d'aucun intérêt.

AFD analyse factorielle discriminante

Ceux-ci viennent d'afficher dans la liste ad-hoc.

AFD analyse factorielle discriminante

La case à cocher "Afficher les options" vous permet de sélectionner parmi les intitulés des observations, lesquelles sont considérées comme observations supplémentaires, c'est à dire celles pour lesquelles vous ne connaissez pas le diagnostic (ou le groupe d'appartenance, ou la modalité de la variable qualitative).

Une fois toutes ces informations précisées, vous pouvez poursuivre la procédure en cliquant sur le bouton "Continuer >>".

Une nouvelle boîte de dialogue, consacrée à la variable "Diagnostic" (ou qualitative), apparaît :

AFD analyse factorielle discriminante

Cliquez sur le bouton "Ajouter une modalité" pour préciser l'une des modalités de la variable qualitative (ou Diagnostic). Renouveler cette opération autant de fois qu'il y a de modalités différentes. Vous noterez que celles-ci viennent s'afficher dans la liste des modalités.

Enfin, il ne vous reste plus qu'à préciser où se trouve la plage de cellules contenant les modalités de la variable qualitative, c'est à dire le groupe d'appartenance de chaque observation. Pour ce faire, placez le curseur dans la zone de texte et sélectionnez directement la plage de cellules sur la feuille Excel, ou bien cliquez sur le petit bouton - à droite de la zone de texte avant de sélectionner la plage de cellules. Les références (adresses) de celles-ci s'affichent automatiquement dans la zone de texte :

AFD analyse factorielle discriminante

Il ne vous reste plus qu'à valider vos choix et lancer le calcul en cliquant sur le bouton "OK".



3 - Résultats de l'Analyse Factorielle Discriminante :

Ceux-ci sont affichés dans une nouvelle feuille qui vient se placer juste après celle contenant les données que vous avez sélectionnées pour procéder à l'AFD.

Notez que certaines cellules sont munies de commentaires explicatifs du contenu des cellules concernées (triangle rouge).

En haut à gauche sont rappelés les détails de l'analyse :

  • nb de variables,
  • nb d'observations,
  • nb de modalités de la variable qualitative ou Diagnostic,
  • nb de facteurs (axes) extraits de l'AFD.

Au dessous de ces rappels sont affichées les caractéristiques des nouveaux axes ou facteurs issus de l'AFD, ainsi qu'un résumé de celles-ci sous forme de graphique.

Rappel : la valeur propre d'un axe traduit sont pouvoir discriminant.

Au centre de la feuille des résultats s'affichent les 2 représentations graphiques directe (des observations) et duale (des variables) selon le plan composé des 2 premiers facteurs de l'AFD. Vous remarquez qu'au dessus de ces graphiques, vous avez la possibilité de modifier les axes des représentations graphiques (abscisse et ordonnée) en agissant sur les flèches "Haut/Bas" (uniquement s'il y a plus que 2 facteurs extraits de l'AFD).

Une case à cocher sous le graphique des observations vous permet d'afficher les barycentres des différents groupes (c'est à dire le centre, ou point moyen de chaque groupe). Par ailleurs, une seconde case à cocher sous le graphique des variables vous permet d'afficher ou de masquer les intitulés des variables.

graphiques AFD analyse factorielle discriminante



Sur la partie droite de la feuille des résultats sont affichés toutes les données numériques nécessaires à l'analyse des résutats de l'AFD :

  • les résultats des statistiques descriptives par variable et par groupe,
  • la matrice des coefficients de corrélation de Pearson entre les variables étudiées,
  • les coordonnées des variables dans le nouveau système d'axes,
  • la matrice des vecteurs propres issus de l'AFD,
  • les matrices
    • de variance totale,
    • de variance inter-classe,
    • de variance intra-classe,
  • les caractéristiques des observations.

Pour ce dernier item, les informations sont les suivantes :

  • le diagnostic :
    • a priori, c'est le classement des observations défini avant l'AFD, celui qui fait office de référence,
    • a posteriori d'après la méthode géométrique, c'est un classement des observations issu de l'AFD ; cette méthode classe une observation dans le groupe dont le barycentre en est le plus proche,
    • a posteriori d'après la méthode probabiliste, c'est un classement des observations issu de l'AFD ; cette méthode classe une observation dans le groupe pour lequel elle à la plus forte probabilité d'appartenance,
  • les distances de chaque observation avec le barycentre de chaque groupe ; c'est cette information qui est utilisée pour le classement a posteriori d'après la méthode géométrique,
  • les probabilités d'appartenance de chaque observation à chaque groupe ; c'est cette information qui est utilisée pour le classement a posteriori d'après la méthode probabiliste,
  • les coordonnées de chaque observation dans le nouveau système d'axes.

résultat AFD analyse factorielle discriminante


Nota bene : une observation reclassée par l'AFD sera notifiée par une cellule de couleur.

Si vous avez défini certaines observations comme étant supplémentaires, celles-ci sont ensuites recensées et leur groupe d'appartenance, calculé par les 2 méthodes (géométrique et probabiliste), affiché en face de chaque intitulé.

Enfin, les 2 derniers tableaux évaluent la qualité du classement de l'AFD en calculant le pourcentage d'observations reclassées par l'AFD.



 

Société ad Science - 46, Rue Marx Dormoy, 75018 Paris