|
Cette commande lance la procédure de classification d'observations issues d'un tableau de mesures (cf. Fonction 9 - ACP) ou des modalités d'une variable qualitative issues d'un tableau de contingence (cf. Fonction 10 - AFC) :

1 - Principe de la Classification Ascendante Hiérarchique - CAH :
Le principe de la CAH est de rassembler les observations ou les modalités d'une variable qualitative selon un critère de ressemblance défini au préalable. Les observations les plus "ressemblantes" seront ainsi réunies dans des groupes homogènes, lesquels se rassembleront plus ou moins rapidement en fonction de leurs ressemblance.
La classification est ascendante car elle part des observations individuelles ; elle est hiérarchique car elle produit des classes ou groupes de plus en plus vastes, incluant des sous-groupes en leur sein.
La notion de ''ressemblance'' entre observations est évaluée par la distance entre les points : distance euclidienne dans le cas d'observations issues d'un tableau de mesures ou distance du Chi² dans le cas des modalités d'une variable qualitative issues d'un tableau de contingence.
Soient i et i', 2 points dont on cherche la distance à partir d'un tableau de p paramètres,
Il faut toutefois définir la façon dont sera calculée la distance entre 2 classes, c'est le critère d'agrégation qui sert à définir la ''ressemblance'' entre groupes :
- saut minimum (la distance retenue entre 2 groupes est la plus petite),
- saut maximum (la distance retenue entre 2 groupes est la plus grande),
- saut selon la moyenne (la distance retenue entre 2 groupes est la distance moyenne, c'est à dire entre les centres de gravité des 2 groupes),
- saut selon la variance ou algorithme de Ward (la distance retenue entre 2 groupes est celle qui minimise la variance intra-groupe tout en maximisant la variance inter-groupe) :
- soient q et q' 2 classes dont on souhaite évaluer la distance,
- q' est composé des observations A et B,
- la classe q a pour poids mq,
- la classe A a pour poids mA,
- la classe B a pour poids mB,
2 - Lancement de la Classification Ascendante Hiérarchique - CAH :
La boîte de dialogue initiale vous offre le choix dans le type de données dont vous souhaitez avoir la classification : observations (issues d'un tableau de mesures) ou modalités d'une variable qualitative (issues d'un tableau de contingence).
Si vous choisissez l'option "modalités d'une variable qualitative", il vous faut préciser à laquelle des 2 variables vous vous intéressez (celle en lignes ou celle en colonnes).
2.1 Classification des observations d'un tableau de mesures :
Il vous est d'abord demandé de préciser le nombre d'observations du tableau de mesures.
La boîte de dialogue se dévoile ensuite pour laisser apparaître un bouton vous permettant de procéder à la sélection de votre tableau de mesure.
Cliquez sur ce bouton et sélectionnez les variables que vous voulez étudier sans omettre le nom de chaque variable dans la première cellule de chaque colonne.
Vous pouvez sélectionner tout le tableau en une seule fois, ou bien si les colonnes de votre tableau sont disjointes, faîtes votre sélection en plusieurs fois en recliquant sur le bouton "Sélectionner une variable...".
Le nom des variables sélectionnées apparaît dans la liste de la boîte de dialogue qui, par ailleurs, se dévoile une fois de plus pour vous permettre de sélectionner les intitulés des observations.
De la même façon que précédement, cliquez sur le bouton "Sélectionner les intitulés..." et selectionnez les noms de vos observations, en laissant l'intitulé de la colonne en question, qui n'est d'aucun intérêt.
Ceux-ci viennent d'afficher dans la liste ad-hoc.
Sur les versions pour Windows vous noterez que dans la liste des intitulés des observations, une colonne de "1" s'affiche en face de chaque item : il s'agit du poids (= pondération) instauré par défaut. Vous avez la possibilité de modifier le poids d'un item en double-cliquant sur l'item en question, ce qui fait apparaître une nouvelle boîte de dialogue :
Nota bene : par défaut, les données seront centrées-réduites, si vous souhaitez travailler avec les données brutes, il vous faut cocher la case d'affichage des options (en bas à droite de la boîte de dialogue) et décocher l'option de travail sur données centrées-réduites.
2.2 Classification des modalités d'une variable qualitative :
La boîte de dialogue (partiellement dévoilée) vous permet de sélectionner les intitulés des modalités de la variable 1 (organisée en colonnes).
Cliquez sur le bouton et sélectionnez les cellules contenant les intitulés de chaque colonne.
Le nom des modalités de la variable 1 apparaît dans la liste de la boîte de dialogue qui, par ailleurs, se dévoile pour vous permettre de sélectionner les intitulés des modalités de la variable 2 (organisée en lignes).
De la même façon que précédement, cliquez sur le bouton "Sélectionner..." et selectionnez les cellules contenant les intitulés des modalités de la variable 2.
Ceux-ci viennent d'afficher dans la liste ad-hoc tout en dévoilant encore un peu plus la boîte de dialogue.
Il ne vous reste plus qu'à sélectionner les cellules contenant les effectifs du tableau de contingence en cliquant sur le bouton "Sélectionner le tableau".
2.3 Fonctions communes :
La case à cocher en bas à droite de la boîte de dialogue permet de dévoiler sa partie droite et offre ainsi la possibilité de choisir le critère d'agrégation (ou de ressemblance) entre classes. Par défaut, c'est le critère d'agrégation par la variance qui est choisi (algorithme de Ward).
3 - Résultats de la Classification Ascendante Hiérarchique - CAH :
Ceux-ci sont affichés dans une nouvelle feuille qui vient se placer juste après celle contenant les données que vous avez sélectionnées.
Notez que certaines cellules sont munies de commentaires explicatifs du contenu des cellules concernées (triangle rouge).
De haut en bas sont affichés :
- un tableau sur de colonnes énumérant les items que vous avez choisis de classifier et, en regard, le numéro du noeud de départ qui leur a été attribué (chaque observation ou modalité de départ constitue une classe),
- à droite, le tableau récapitulant les caractéristiques des nouveaux noeuds (= union de 2 classes),
- un 1er graphique répertoriant le pourcentage de variance du nuage de points perdu à chaque noeud (i.e. le pourcentage de variance gagnée par la classe lors de l'union de 2 sous-classes),

- un 2nd graphique synthétique de l'ensemble de la classification, appelé "Dendogramme", et qui se lit comme un arbre généalogique : 2 observations ou modalités seront d'autant plus "ressemblantes" ou proches que le noeud les regroupant sera situé bas sur le graphique.
Sous le dernier graphique vous sont proposées quelques fonctionnalités pratiques d'analyse visuelle du dendogramme :
- un bouton de zoom positif (agrandissement) ou négatif (rétrécissement) jouant sur l'axe des ordonnées du graphique,
- une case à cocher vous permettant d'afficher ou masque les noeuds du dendogramme et leurs intitulés,
- un bouton qui vous permet de basculer l'affichage du dendogramme sous la forme d'un organigramme hiérarchique ou d'un arbre (version pour Windows seulement).
|