| |
 |
StatEL : Test de Régression / Corrélation de Pearson |
|
|
|
| |
Cette commande lance soit la procédure de construction d'un modèle linéaire entre 2 variables quantitatives (Régression linéaire simple), soit le test de liaison entre 2 variables quantitatives (Corrélation de Pearson), soit le test de comparaison de 2 droites de régression linéaire.
1 - Principes du test de Régression / Corrélation de Pearson :
L'ensemble des couples de mesures (x, y) de l'échantillon d'une population définissent un nuage de points au sein duquel on peut tracer une droite dont la position et la pente minimiseront sa distance avec l'ensemble des points du nuage (droite de régression des moindres carrés).
Ainsi, en cas d'indépendance entre les 2 variables, l'information sur la valeur de la variable X ne permet pas de prévoir quelle sera la valeur de la variable Y, et la droite qui traverse le nuage de points aura une pente qui fluctuera autour de 0 (droite horizontale).
A l'inverse, en cas de liaison entre les 2 variables, l'information sur la valeur de X permet de prévoir quelle sera la valeur de Y, et la droite qui traverse le nuage de points aura une pente différente de 0.
Un autre paramètre, le coefficient de corrélation de Pearson (r) permet de préciser l'existence d'une liaison entre 2 variables quantitatives et également son intensité. Son carré, le coefficient de détermination (R²) précise le pourcentage de valeurs expliquées par le modèle de régression défini par la droite.
Corrélation et régression sont des valeurs intimement liées, pourtant la logique veut que l'on ne les utilise pas toujours dans les mêmes circonstances :
- Si on considère les notes en français et en mathématiques d'un groupe d'élèves et qu'on souhaite savoir si les notes sont liées ou indépendantes. On parle dans ce cas d'un problème de corrélation car aucune des 2 variables ne peut prétendre être explicative, les 2 "mesures" varient librement, elles sont "symétriques".
- En revanche, si on considère une relation dose-effet (ex : injection d'insuline et mesure de la glycémie), les 2 variables ne sont plus "symétriques", la variable "injection d'insuline" est contrôlée et dite explicative sur la variable "glycémie". On est typiquement dans un problème de régression.
La différence entre les 2 cas de figure s'explique aussi en ces termes : dans un problème de corrélation, les 2 variables doivent être aléatoires, on est dans une situation d'observation ; dans un problème de régression, une seule variable est aléatoire (la variable expliquée : Y), l'autre étant contrôlée (la variable expliquative : X), on est dans une situation d'expérimentation.
Toutefois, rien n'interdit de pratiquer une régression linéaire avec 2 variables aléatoires.
Dans le cas de figure où les mesures ont été répétées plusieurs fois sur chacun des sujets, il convient de procéder à un traitement spécifique des données. En effet, la méthode des moindres carrés pour le calcul de la droite de régression est basée sur l'hypothèse que les points sont indépendants. Or, les mesures répétées sur un même sujet ne sont pas indépendantes, cela induit l'obligation de devoir traiter la variance intra-sujets, en plus de la variance inter-sujets.
Le traitement appliqué sur ces données par StatEL est la méthode de Chi Sang POON (Analysis of linear and mildly nonlinear relationships using pooled subject data. Journal of Applied Physiology. 64 : 854-859. 1988), avec l'aide du Pr C. MELOT, Hôpital Universitaire Erasme, BRUXELLES, Belgique.
Nota bene : l'utilisation du traitement de Poon impose de disposer d'au moins 2 mesures pour chaque sujet. Si un seul des sujets ne présente qu'une seule mesure, StatEL pocédera à une régression classique en utilisant la valeur moyenne des mesures répétées pour chaque sujet qui présente des mesures répétées.
Conditions d'utilisation du test :
- Distribution normale des mesures sur les 2 variables étudiées
2 - Lancement du test de Régression / Corrélation de Pearson :
Il vous est d'abord demandé de préciser si vous souhaitez pratiquer un test de régression linéaire destiné à établir un modèle prédictif entre 2 variables ou si vous souhaitez pratiquer un test de corrélation (c'est à dire si les mesures de vos 2 variables [X et Y] n'ont jamais été contrôlées pendant le protocole, celles-ci sont donc parfaitement aléatoires).
Par défaut, StatEL considère que les mesures des 2 variables [X et Y] n'ont jamais été contrôlées pendant le protocole, elles sont donc parfaitement aléatoires. En conséquence, si vous avez opté pour la procédure de régression linéaire, vous avez la possibilité de préciser si la variable explicative est contrôlée (ce qui est souvent le cas dans les problèmes de régression) et si elle est une mesure du temps, en cochant les cases prévues à cet effet. Ces informations ont leur importance par la suite dans l'étude de la qualité du modèle de régression. De même, vous pouvez imposer au calcul de forcer le passage de la droite de régression par l'origine de graphique (point (0, 0)).
Notez qu'une case à cocher vous permet de préciser si les mesures ont été répétées plusieurs fois sur chaque sujet.
Ensuite, il vous est demandé successivement de sélectionner les plages de cellules correspondant aux mesures relatives à la variable Y, puis à la variable X. Pour procéder à la sélection, il vous suffit de cliquer sur la première cellule de la série de données et de faire glisser la souris jusqu'à la dernière valeur.
Dans le cas de figure où vous auriez coché la case pour la gestion des mesures répétées, il vous est demandé en plus de procéder à la sélection de la plage de cellules contenant les identifiants des sujets :

Puis, une boîte de dialogue s'affiche pour vous préciser le nombre de sujets différents qui ont été identifiés par StatEL et si la procédure de Poon pour mesures répétées peut être utilisée :

Nota bene : afin d'identifier au mieux les différents groupes de mesures, la première cellule de chaque sélection doit impérativement contenir le nom du groupe. Ce nom servira d'entête au groupe étudié sur la feuille des résultats.
En cas d'erreur, refaîtes simplement votre sélection, celle-ci viendra effacer votre précédente sélection dans la boîte de dialogue sans que vous ayez à annuler quoi que ce soit.
Nota bene : dans un test de Régression ou de Corrélation, le nombre de mesures est censé être le même pour chaque série. Toutefois, le test saura gérer les données manquantes à condition que pour chaque série, la sélection porte exactement sur le même nombre de cellules (vides ou non). La procédure de sélection tournera en boucle tant que vous n'aurez pas sélectionné autant de cellules qu'à la sélection précédente.
3 - Résultats du test de Régression / Corrélation de Pearson :
Les résultat du test apparaissent sur une nouvelle feuille de votre classeur Excel :
3.1 - Régression linéaire :
Ce test est basé sur l'étude de la significativité de la pente du modèle de régression linéaire calculé en fonction des couples de données (Y = aX + b). Le test va d'abord calculer si l'ordonnée à l'origine (b) est significativement différente de 0, auquel cas le test va calculer si la pente (a) est significativement différente de 0.
Si l'ordonnée à l'origine (b) n'est pas significativement différente de 0, une boîte de dialogue s'affichera pour vous demander si vous souhaitez étudier un modèle prédictif construit avec (Y = aX + b) ou sans constante (Y = aX).
- Sur la partie gauche de la feuille sont affichés, sous forme de tableau, les données sélectionnées, les valeurs de Y théoriques (calculées d'après le modèle de régression issu du test), les résidus, les résidus studentisés, les leviers de chaque couple de valeurs et les limites de l'intervalle de confiance à 95% du modèle de régression linéaire :
- Si votre jeu de données était composé de mesures répétées, 2 nouvelles colonnes sont présentes sur ce tableau : celle des données non-transformées par la méthode de Poon, et celle des noms des sujets.
- Sur la partie droite de la feuille sont affichés les tableaux des moyennes, écart-types et les caractéristiques du modèle de régression, ainsi que les conclusions du test. En cas de résultat permettant de rejeter significativement l'hypothèse H0, c'est à dire si le test démontre que la pente du modèle de régression (a) est significativement différente de 0, les conclusions ainsi que la probabilité d'erreur sont écrites en rouge.

- Plus bas, vous trouverez la procédure à suivre afin d'évaluer la qualité du modèle de régression linéaire ; cette partie de l'étude d'un modèle de régression linéaire étant beaucoup plus subjective que les autres, elle ne peut pas être automatisée et nécessite une certaine expérience dans l'interprétation de ses résultats. Elle a au moins le mérite d'être présentée à l'utilisateur de façon simple et pédagogique afin de lui permettre d'apporter un regard critique sur les résultats purement numériques qui lui ont été présentés jusqu'à maintenant :
- Le test des signes est un test non-paramétrique qui a pour but de tester la linéarité du modèle. Son principe est d'étudier la position des points du nuage par rapport à la droite du modèle. Si le modèle est réellement linéaire, celui-ci doit laisser, en moyenne, autant de points au-dessus de la droite qu'au dessous.
- L'étude des résidus studentisés permet également d'évaluer la qualité linéaire du modèle : dans un modèle "correctement" linéaire, les différents résidus se répartissent sur un graphe entre -2 et +2, sans structure particulière (pas de forme spéciale du nuage des résidus). Si certains couples de mesures présentant un résidu trop important, ceux-ci sont à examiner.
- Certains points du nuage ont tendance à "tirer" la droite du modèle vers eux, en raison de leur éloignement par rapport au centre de gravité du nuage, on dit alors qu'ils ont un "effet levier" important (en général supérieur à 4 fois la moyenne des leviers de l'ensemble des points du nuage). Si certains couples de mesures présentant un levier trop important, ceux-ci sont à examiner.
- Dans le cas où la variable explicative est une variable temporelle, on calcule alors la statistique de Durbin-Watson qui permet de tester s'il existe une corrélation des résidus, ce qui serait un signe de la non-linéarité du modèle. Cette statistique doit être voisine de 2 si l'hypothèse "H0: non-corrélation des résidus" est vraie.
- Enfin, on teste la normalité de la distribution des résidus qui doit-être vérifiée en cas de linéarité du modèle.
- Ensuite une série de graphiques servant à illustrer la qualité du modèle de régression linaire est affichée : graphique des Y en fonction des X qui vous offre la possibilité de visualiser l'intervalle de confiance à 95% du modèle de régression linéaire, graphique des Y observés vs Y calculés, graphique des résidus studentisés, graphique Q-plot.
3.2 - Corrélation linéaire :
Ce test est basé sur le calcul du coefficient de corrélation (r) et des caractéristiques du modèle de régression linéaire calculé en fonction des couples de données (Y = aX + b). Le test va calculer si le coefficient de corrélation (r) est significativement différent de 0.
- Sur la partie droite de la feuille sont affichés les tableaux des moyennes, écart-types, coefficient de corrélation, de détermination et de détermination ajustée et les caractéristique du modèle de régression, ainsi que les conclusions du test. En cas de résultat permettant de rejeter significativement l'hypothèse H0, c'est à dire si le test démontre que le coefficient de corrélation (r) est significativement différent de 0, les conclusions ainsi que la probabilité d'erreur sont écrites en rouge.

- En cas de non respect des conditions d'utilisation du test, cela vous est signalé en rouge, de même il vous est indiqué le nom du test non-paramétrique analogue au test de Pearson que vous pouvez utiliser : le test de corrélation de Spearman.
|
|
|
| |
Société
ad Science - 46, Rue Marx Dormoy, 75018 Paris |
|
|
|