| |
 |
StatEL : Régression Logistique |
|
|
|
| |
Cette commande lance le calcul du modèle de régression entre une variable expliquée (Y) de nature binaire (i.e. ne prenant que 2 valeurs, en général 0 ou 1) et une ou plusieurs variables explicatives, de nature quantitative (= numérique) ou qualitative (=catégorielle).
Les variables explicatives qualitatives peuvent être d'une part binaires (2 modalités seulement) ou polytomiques (3 modalités ou plus), et d'autre part elles peuvent être ordinales (l'ordre des modalités de la variable a une signification, ex : petit/moyen/grand) ou pas.
Exemple (in Hosmer & Lemeshow, repris dans la suite de ce document pour l'illustration d'une régression logistique avec StatEL) : un faible poids de naissance est préjudiciable au développement de l'enfant, aussi une étude a été menée avec pour objectif d'évaluer les risques de faible poids de naissance (Low Birth Weignt - variable Y). Parmi 8 facteurs de risques potentiels (variables explicatives), les auteurs de l'étude ont décidé de retenir les 4 suivants :
- 2 variables quantitatives : l'âge de la mère (AGE) et son poids aux dernières règles (LWT),
- 2 variables qualitatives : le nombre de visites médicales de la mère au cours de la grossesse (FTV) et la race de la mère (RACE codée en 3 catégories).
Les paramètres du modèle sont calculés par la méthode des moindres carrés généralisés, chacun est testé par rapport à 0 grâce au test de Wald, et la significativité du modèle complet est évaluée par la méthode du maximum de vraisemblance.
1 - Principe de la régression logistique :
1.1. Choix du modèle de régression logistique
Lorsque la variable expliquée (Y) est quantitative, l'hypothèse de la normalité de sa distribution est réaliste, ce qui n'est pas le cas lorsque celle-ci est de nature qualitative, puisque ses valeurs ne peuvent prendre que certaines modalités (0 et 1 dans le cas binomial) :

Y = f(X)
Dans ce cas, le calcul d'un modèle de régression d'une variable qualitative portera sur la probabilité de la variable Y de prendre chacune des modalités possibles. Ex : dans la relation entre la probabilité d'une variable expliquée (Y) binaire et une variable explicative (X) quantitative, on observe une relation en forme de "S" (relation sigmoîde), limitée entre les bornes 0 et 1 :

Probabilité (Y=1) en fonction des valeurs de X
On voit bien que si on tente de modéliser ce nuage de points par une droite (régression linéaire), celle-ci dépassera les limites de 0 et de 1 (or une probabilité supérieure à 1 ou inférieure à 0 n'est pas concevable). Le modèle le plus adapté à cette courbe est la fonction de répartition d'une loi logistique, on parle alors de modèle "logit" ou logistique.
Remarque : il existe également le modèle "probit" (fonction de répartition de la loi Normale) capable de modéliser une probabilité, toutefois l'intérêt d'utiliser le modèle "logit" est qu'il permet d'aborder les notions d'Odds Ratio (voir ci-après) qui quantifient le risque d'obtenir un "outcome positif" (i.e. obtenir Y=1) selon le fait que le sujet présente telle ou telle modalité d'une variable explicative qualitative, ou que la valeur d'une variable explicative quantitative augmente d'une unité.
1.2. Estimation du modèle de régression logistique
Pour modéliser la probabilité d'obtenir la variable Y=1 en fonction de k variables explicatives, l'estimation des k paramètres du modèle de régession logistique se fait par la méthode du maximum de vraisemblance (Maximum Likelihood). La valeur des paramètres calculés maximise la valeur de vraisemblance du modèle par rapport au nuage de points.
Une fois les k paramètres calculés (b1, b2, ..., bk), la significativité de chacun des paramètres par rapport à 0 est testée via le test de Wald (W) :
- H0: le paramètre bk n'est pas significativement différent de 0
- H1: le paramètre bk est significativement différent de 0

avec :
- bk estimation du paramètre de la kième variable explicative
- SE(bk) écart-type du paramètre de la kième variable explicative
Cette valeur suit approximativement une loi normale centrée-réduite.
La significativité du modèle total est évaluée par le test du rapport de vraisemblance (LR Likelihood Ratio) :
- H0: aucun des paramètres du modèle de régression logistique n'est significativement différent de 0
- H1: il existe au moins un paramètre du modèle de régression logistique dont la valeur est significativement différente de 0
avec :
- L0 vraisemblance du modèle de régression logistique sans variable explicative (i.e. uniquement avec une constante dans le modèle)
- Lk vraisemblance du modèle de régression logistique avec la totalité des variables explicatives
Cette valeur suit approximativement une loi du Chi².
1.3. Intérêt du modèle "Logit" : le calcul des Odds Ratio
Dans un modèle de régression logistique, l'Odds Ratio (OR) représente le facteur multiplicateur de risque de présenter Y=1 associé à telle ou telle valeur d'une variable explicative.
Exemple : considérons l'étude du développement d'une maladie M (variable expliquée en 0/1) en fonction de l'exposition ou non à un facteur de risque R (variable explicative en 0/1 également). Soient P1 la probabilité de développer la maladie si le sujet est exposé au facteur de risque et P0 la probabilité de développer la maladie si le sujet n'est pas exposé au facteur de risque. Le calcul de l'OR se fait selon la formule suivante :

Si l'OR est supérieur à 1, cela signifie que le risque de développer la maladie est supérieur chez les sujets exposés au facteur de risque considéré. En revanche, si l'OR est inférieur à 1, cela signifie que le risque de développer la maladie est inférieur chez les sujets exposés au facteur de risque considéré.
En outre, la valeur de cet OR représente le facteur multiplicateur de risque associé à l'exposition au facteur de risque. Ainsi, un OR de 3 signifie que les sujets exposés au facteur de risque considéré ont 3 fois plus de risque de développer la maladie que les autres sujets.
Dans un modèle de régression logistique, le calcul des odds ratio s'effectue directement à partir des paramètres du modèle attachés à chacune des variables explicatives. Il suffit pour cela de calculer l'exponentielle du paramètre d'une variable explicative pour obtenir son odds ratio.
1.4. Cas des variables explicatives binaires dans un modèle de régression logistique
Une variable binaire (ou dichotomique) est une variable qui présente exclusivement 2 modalités (vivant/mort, mâle/femelle, succès/échec, rechute/rémission...). Toutefois, dans le calcul des paramètres d'un modèle de régression logistique, ces 2 modalités devront être "numérisées" en 0/1. Il vous appartient de définir laquelle des 2 modalités devra être codée en "1", sachant que c'est sur cette modalité que reposeront tous les raisonnements relatifs aux odds ratio. Autrement dit, la modalité codée en "0" servira de référence par rapport à la modalité codée en "1". Lors de la procédure de sélection de vos données, StatEL vous offre la possibilité de préciser laquelle sera codée en "1" et en "0".
Dans la situation d'une variable explicative binaire, les explications précédentes (Partie 1.3.) relatives aux odds ratio sont directement applicables.
1.5. Cas des variables explicatives polytomiques dans un modèle de régression logistique
Une variable polytomique est une variable qui peut présenter 3 (ou plus) modalités différentes. Toutefois, dans le calcul des paramètres d'un modèle de régression logistique, ces modalités devront être "numérisées". Vous avez la possibilité de coder directement chaque modalité de la variable qualitative ("0" pour la première modalité, "1" pour la seconde modalité, "2" pour la 3ème modalité, etc...).
Lors de la procédure de sélection de vos données, StatEL vous offre la possibilité de préciser laquelle la façon de coder chaque modalité. Toutefois, dans cette situation, aucune des modalités de la variable qualitative ne peut servir de référence par rapport aux autres. En conséquence, l'odds ratio calculé pour cette variable polytomique représentera le risque associé au fait de présenter une modalité (quellle qu'elle soit) par rapport au fait de présenter la modalité codée en "0", sans aucune autre précision. Cette façon de faire est assez peu utile dans la mesure où l'information contenue dans le codage "1", "2", "3", ... est inutilisable.
Il existe toutefois une autre méthode de codage d'une variable qualitative polytomique qui permet de calculer autant d'odds ratio que cette variable compte de modalités (moins une), et donc d'extraire l'information de toutes les modalités de cette variable. Elle consiste en la création de nouvelles variables dites "indicatrices" ou "design variables" (en anglais), chacune représentant une modalité de la variable qualitative initiale et codée en "0/1" (voir ci-après).
a) Codage d'une variable polytomique en variables design :
Le codage d'une variable polytomique en variables design nécessite de choisir une des modalités de la variable comme "référence" par rapport aux autres. Considérons une variable qualitative recensant les antécédents médicaux des patients d'une étude, les différentes modalités de cette variable sont : "arythmie cardiaque", "hypercholestérolémie", "diabète", et "aucun antécédent". Cette dernière modalité sera celle qui servira de référence par rapport aux 3 autres. La transformation de cette variable polytomique aboutira à la constitution de 3 nouvelles variables design, chacune étant relative à l'une des 3 modalités, et codée en "0/1" ; les concordances avec les modalités initiales sont effectuées comme ci-dessous :
| Variable initiale |
var. design 1
|
var. design 2
|
var. design 3
|
| arythmie cardiaque |
1
|
0
|
0
|
| hypercholestérolémie |
0
|
1
|
0
|
| diabète |
0
|
0
|
1
|
| aucun (référence) |
0
|
0
|
0
|
En conséquence, le modèle de régression logistique contiendra 3 variables binaires au lieu d'une variable polytomique à 4 modalités. Chacune de ces variables se verra attribuer un paramètre dont l'exponentielle donnera la valeur de son odds ratio. Ainsi, selon l'exemple ci-dessus, si la variable design N°1 (caractéristique de la modalité "arythmie cardiaque") se voit affectée du coefficient b = 0.69, son odds ratio sera égal à "2" (= e0.69). Cela signifie que le risque d'avoir Y=1 est 2 fois plus important chez les sujets frappés d'arythmie cardiaque que ceux sans antécédent médical.
Lors de la procédure de sélection d'une variable polytomique, StatEL gère pour vous la création de ces variables design dès lors que vous lui précisez de le faire. De même, outre les paramètres du modèle et leur significativité, StatEL vous propose leur odds ratio ainsi que leur intervalle de confiance à 95%.
b) Codage d'une variable ordinale en variables design :
Le codage d'une variable ordinale (où l'ordre des modalités a une signification) en variables design nécessite (comme dans le cas d'une variable poytomique classique) de choisir une des modalités de la variable comme "référence" par rapport aux autres. Considérons une variable qualitative recensant les tumeurs des patients d'une étude, les différentes modalités de cette variable sont : "aucune", "petite", "moyenne", et "grosse". La première modalité sera celle qui servira de référence par rapport aux 3 autres. La transformation de cette variable polytomique aboutira à la constitution de 3 nouvelles variables design, chacune étant relative à l'une des 3 modalités, et codée en "0/1" ; les concordances avec les modalités initiales sont effectuées comme ci-dessous :
| Variable initiale |
var. design 1
|
var. design 2
|
var. design 3
|
| aucune (référence) |
0
|
0
|
0
|
| petite tumeur |
1
|
0
|
0
|
| moyenne tumeur |
1
|
1
|
0
|
| grosse tumeur |
1
|
1
|
1
|
En conséquence, le modèle de régression logistique contiendra 3 variables binaires au lieu d'une variable polytomique à 4 modalités. Chacune de ces variables se verra attribuer un paramètre dont l'exponentielle donnera la valeur de son odds ratio. Ainsi, selon l'exemple ci-dessus, imaginons que les résultats des calculs fournissent le modèle suivant : Y = 0.5 VD1 + 1.3 VD2 + 2 VD3 + cste
Les coefficients des 3 variables design sont respectivement b1 = 0.5, b2 = 1.3 et b3 = 2 ; les odds ratio associés (exponentielle de chaque coefficient) sont respectivement "1.6", "3.7" et "7.4". Cela signifie que, par rapport à la modalité de référence, le risque d'avoir Y=1 est 1.6 fois plus important chez les sujets atteint d'une tumeur décrite comme "petite", 3.7 fois plus important chez les sujets atteint d'une tumeur décrite comme "moyenne", et 7.4 fois plus important chez les sujets atteint d'une tumeur décrite comme "grosse". En revanche, le calcul du risque lors du passage d'une catégorie à l'autre (ex : tumeur "petite" à "moyenne") est moins direct et se fait selon la formule suivante : OR(1->2) = e(b2 - b1) = e(1.3 - 0.5) = 2.23
Lors de la procédure de sélection d'une variable polytomique ordinale, StatEL gère pour vous la création des variables design dès lors que vous lui précisez de le faire. De même, outre les paramètres du modèle et leur significativité, StatEL vous propose leur odds ratio ainsi que leur intervalle de confiance à 95%.
1.6. Cas des variables explicatives numériques dans un modèle de régression logistique
Une variable numérique mesure un paramètre quantitatif et continu. Les données d'une telle variable X sont insérées telles quel dans l'algorithme de calcul, sans besoin de transformation préalable. En revanche, l'odds ratio [exp(coefficient)] associé à cette variable X représente le risque de voir Y=1 associé à une augmentation d'une unité de la variable X.
En conséquence, si votre variable numérique représente le temps en années, vous aimeriez peut-être connaître le risque associé à l'augmentation de 10 ans au lieu de 1 an. Le calcul de ce risque se fait selon la formule suivante : OR = e(b x 10)
2 - Lancement de la régression logistique :
La boîte de dialogue vous propose de sélectionner à tour de rôle :
- la variable expliquée Y,
- toute variable explicative numérique,
- toute variable explicative qualitative :
2.1. Sélection de la variable expliquée dans la procédure de régression logistique sur StatEL
Lorsque vous avez sélectionné la plage de cellules contenant les données de la variable Y, StatEL recense le contenu de cette variable pour vous permettre de vérifier qu'il s'agit bien d'une variable binaire :

Grâce à cette boîte de dialogue, vous avez la possibilité de supprimer l'une des modalités si celle-ci est surnuméraire (bouton à gauche de la liste de gauche). En outre, StatEL propose un codage par défaut (nécessaire pour le calcul) affiché dans la liste de droite. Vous avez la possibilité de faire coïncider chaque modalité avec un autre codage en le sélectionnant (dans la liste de droite) et en le déplaçant vers le haut ou le bas de la liste en jouant sur les flèches "Haut/Bas", de manière à faire coïncider sa ligne avec celle de la modalité correspondante de la liste de gauche. Vous devez ensuite valider votre sélection.
2.2. Sélection d'une variable explicative numérique dans la procédure de régression logistique sur StatEL
Lorsque vous avez sélectionné la plage de cellules contenant les données d'une la variable explicative numérique, StatEL vérifie simplement que votre sélection contient exactement le même nombre de cellules que lors de la sélection de la variable expliquée. Dans le cas contraire, vous verriez apparaître ce message d'erreur :

2.3. Sélection d'une variable explicative qualitative polytomique dans la procédure de régression logistique sur StatEL
Lorsque vous avez sélectionné la plage de cellules contenant les données de la variable explicative polytomique (plus que 2 modalités), StatEL recense le contenu de cette variable afin de vous l'afficher et vous permettre de préciser la façon dont vous souhaitez qu'elle soit codée dans le calcul :
a) Codage d'une variable polytomique telle quelle :
Choisissez pour cela l'option du haut, le label du bouton "OK" se transforme en "Etape suivante >>". Cliquez dessus pour passer à l'étape de validation du contenu de cette variable :
Dans l'exemple ci-dessus, l'ordre du codage a été modifié pour faire coïncider le code "0" avec la modalité "1", le code "1" avec la modalité "2", le code "2" avec la modalité "3". Vous devez ensuite valider votre sélection.
b) Codage d'une variable polytomique sous forme de variables design :
Choisissez pour cela la seconde option. La liste du bas devient active afin de permettre d'y sélectionner la modalité qui servira de référence par rapport aux autres. Dès lors, la boîte de dialogue s'élargit pour vous informer sur la façon dont les variables design seront codées :

Cliquez sur le bouton "OK" une fois votre choix effectué. Un message vous demande de confirmer votre choix de la modalité de référence
c) Codage d'une variable ordinale sous forme de variables design :
Choisissez pour cela la seconde option et cochez la case permettant de spécifier qu'il s'agit bien d'une variable ordinale. Le fait de cocher cette case provoque l'apparition d'une nouvelle boîte de dialogue destinée à vous permettre de préciser l'ordre logique des catégories de cette variable ordinale :

Cliquez sur le bouton "OK" pour valider l'ordre des modalités de la variable ordinale et revenir à la boîte de dialogue précédente afin d'y définir la modalité qui doit servir de référence. Cliquez ensuite sur le bouton "OK" de cette boîte pour valider la sélection de cette variable ordinale.
Lorsque la boîte de dialogue initiale réapparaît, il vous reste à cliquer sur le bouton "Valider" afin de lancer la procédure de calcul. Au besoin, cochez au préalable l'option de sélection des variables par la méthode Stepwise. Dans ce cas, seules les variables réellement influentes sur les valeurs de la variable Y seront intégrées dans le modèle de régression.
3 - Résultats de l'analyse de régression logistique :
Ceux-ci sont affichés dans une nouvelle feuille qui vient se placer juste après celle contenant les données que vous avez sélectionnées.
Notez que certaines cellules sont munies de commentaires explicatifs du contenu des cellules concernées (triangle rouge).
Dans la partie gauche sont affichées les données sélectionnées au départ, les valeurs de Y calculées grâce au modèle, les résidus, les résidus studentisés, les leviers de chaque points et autres données nécessaires à l'analyse diagnostique du modèle de régression logistique.
Sur la droite de la feuille de résultats se succèdent :
- les statistiques descriptives de chaque variable explicative,
- le modèle de régression logistique complet,
- l'analyse de significativité de chaque paramètre du modèle via le test de Wald, ainsi que les odds ratio associés et leur intervalle de confiance à 95%,
- l'étude de significativité du modèle global via le test du rapport de vraisemblance,
- l'étude de l'adéquation du modèle de régression grâce aux statistiques de Chi² de Pearson, de déviance et de Hosmer & Lemeshow,
- l'analyse graphique des résidus et des leviers des différents "covariate patterns".

Dans cet exemple (in Hosmer & Lemeshow), le test du rapport de vraisemblance montre que le modèle calculé contient au moins une variable dont le coefficient est significativement différent de 0 (au risque d'erreur près p < 0.0335). Le test de Wald (tableau) effectué sur les paramètres de chaque variable montre que seules les variables LWT (p < 0.0145) et RACE 2 (p < 0.0219) influencent la valeur de la variable Y (donc influencent significativement le faible poids de naissance des enfants).
Leurs odds ratio respectifs sont également significatifs (au risque d'erreur près p < 0.05) puisque leurs intervalles de confiance à 95% excluent la valeur 1. On en déduit que le risque d'avoir un enfant de faible poids est multiplié par 0.9858 (donc réduit en fait) par augmentation du poids de la mère de 1 unité (par extension, on peut calculer que le risque est multiplié par e(10 x -0.01426) = 0.867 par augmentation du poids de la mère de 10 unités). En outre, ce même risque d'avoir un enfant de faible poids est multiplié par 2.729 pour les femmes appartenant à la catégorie RACE 2 par rapport à celles appartenant à la catégorie de référence (RACE 1).

Dans ce même exemple, les tests du Chi² de Pearson et de la déviance ne remettent pas en cause l'adéquation du modèle par rapport aux données. Seul le test de Hosmer & Lemeshow suggère le rejet de l'hypothèse d'adéquation du modèle aux données. Toutefois, le commentaire associé à cette statistique rappelle que ce test déploie sa pleine puissance lorsque les 2 conditions suivantes sont remplies : N > 400 et les effectifs estimés (cf. tableau de H&L) doivent être supérieurs à 5. On constate qu'aucune de ces conditions ne sont respectées, ce qui nous invite à ne pas tenir compte de cette statistique.
Enfin, l'analyse des résidus et des effets leviers est présentée sous forme de graphique. Ceux-ci, ne semblent pas remettre en cause la qualité du modèle de régression calculé.
|
|
|
| |
Société
ad Science - 46, Rue Marx Dormoy, 75018 Paris |
|
|
|