Canalblog
Editer l'article Suivre ce blog Administration + Créer mon blog
Publicité
Epi Info en Version Française
Epi Info en Version Française
  • Ce site est consacré à la version française du logiciel épidémiologique Epi Info™. Il est réalisé par David Moreau, Statisticien Epidémiologiste. This blog is dedicated to Epi Info™ french version software, but some technical comments are also in english.
  • Accueil du blog
  • Créer un blog avec CanalBlog
Publicité
Archives
Visiteurs
Depuis la création 396 401
4 novembre 2011

La régression logistique simple avec Epi Info

livre

La commande REGRESSION LOGISTIQUE permet de tester l'association entre une variable qualitative à 2 modalités de type oui/non (Yes/No) ou codée en 0/1 (comme l'absence ou la présence d'une maladie), dite variable dépendante ou de résultat, et une ou plusieurs autres variables qualitatives et/ou quantitatives, dites variables indépendantes.

Le modèle logistique permet de calculer la probabilité de la caractéristique étudiée (souvent la présence d'une maladie), suivant les valeurs des variables indépendantes.

Par exemple, dans un modèle avec la variable avoir de l'eczéma comme variable de résultat, et la variable sexe du sujet come variable d'exposition (cf exemple en suivant), le modèle calculera la probabilité d'avoir de l'eczéma chez les hommes, et la probabilité d'avoir de l'eczéma chez les femmes. 

Les résultats sont donnés par Epi Info sous forme d'Odds Ratio entre la variable dépendante et la ou les variables indépendantes,  l'OR étant un indicateur important en épidémiologie pour mesurer une association avec une variable dichotomique.


Dans le cas de la régression logistique simple, on teste l'association entre une variable dépendante  dichotomique (comme
l'absence ou la présence d'une maladie), et une variable indépendante (si elle est aussi dichotomique, on parle souvent de variable d'exposition).

Attention !
Epi Info n'accepte comme variable de résultat (la variable dichotomique à expliquer) que les variables numériques codées en 0/1, ou les variables de type Oui/Non (Yes/no).
Si ce n'est pas le cas, vous devrez créer une nouvelle variable en recodant la variable d'origine avec les commandes Epi Info du module d'analyse DEFINIR et recoder.




Par exemple, en reprenant la base de données du projet "Issac2f.mdb", (cf message du 15 décembre 2010) on teste l'association entre l'eczéma (la variable de résultat, dépendante) et le sexe (variable indépendante, d'exposition) des enfants.

Après avoir cliqué sur la commande Regression Logistique, sur la fenêtre qui apparaît, on sélectionne d'abord la variable de résultat, ici la variable eczéma.

Logistique_1 

 Puis dans le menu déroulant "Other variables" on sélectionne la variable indépendante, ici la variable sexe.

Logistique_2 

On clique enfin sur le bouton OK pour lancer le calcul.
Les résultats de la régression logistique apparaissent alors dans la fenêtre de sortie :

Re_sultat_Logistique_eczema_sexe 

Dans la fenêtre résultat, on lit la valeur de l'OR, ici 0,70 en arrondisant, et son intervalle de confiance à 95 % à côté (entourés en rouge), ainsi que la valeur p, ici 0,0429 (entourée en vert). 
On peut donc dire que les garçons ont une probabilité plus faible d'avoir de l'eczéma que les filles, car la valeur de l'OR des garçons sur les filles de 0,70, est significativement inférieure à 1 (en effet son l'intervalle de confiance n'inclut pas 1, et la valeur p est inférieure à 0,05). 

Les valeurs p qui apparaissent en bas (encadrées en bleue, p est proche de 0,4) correspondent au degrés de signification du modèle logistique global (avec toutes les variables explicatives). Ici comme il n'y a qu'une seule variable explicative (le sexe) ces valeurs de p sont proches de celle associée à la variable sexe, et indiquent que le modèle est statistiquement significatif. 


Autre  exemple, toujours à partir des mêmes données, on teste l'association entre la présence d'eczéma chez les enfants (la variable de résultat, dépendante) et les symptômes de sifflements (variable indépendante, d'exposition). 

 Résultats de la régression logistique apparaissant dans la fenêtre de sortie:

 Resultat_logistique_eczema_sifflements

Dans la fenêtre résultat, on lit la valeur de l'OR, ici 3,05 en arrondisant, et son intervalle de confiance à 95 % à côté (entourés en rouge), ainsi que la valeur p, ici inférieure à 0,0001 (entouré en vert).
On peut donc dire que les enfants qui ont des sifflements dans la poitrine ont une probabilité plus grande d'avoir de l'eczéma que ceux qui ne présentent pas de symptômes de sifflements, car la valeur de l'OR de 3,05 est très significativement supérieure à 1 (en effet son l'intervalle de confiance n'inclut pas 1, et la valeur p est très inférieure à 0,05). 

Les valeurs p qui apparaissent en bas (encadrées en bleue, p est inférieur à 0,0001) correspondent au degrés de signification du modèle logistique global (avec toutes les variables explicatives). Ici comme il n'y a qu'une seule variable explicative (les sifflements) ces valeurs de p sont proches de celle associée à la variable sifflements, et indiquent que le modèle est statistiquement très significatif. 

 


Rappel sur l'Odds Ratio:

 par définition, l'odds ratio correspond au rapport entre deux rapports de probabilités :
1er rapport: la probabilité d'être malade (ou fréquence de la maladie, notée p1), sur la probabilité de ne pas être malade (ou fréquence des non maldes, notée 1-p1) chez les sujets exposés, 
divisé par,
2ème rapport: la probabilité d'être malade (ou fréquence de la maladie, notée p0) sur la probabilité de ne pas être malade (ou fréquence des non malades, notée 1-p0) chez les sujets non exposés.

L'odds ratio s'écrit donc:

Odds_Ratio_def

Ainsi si l'OR est plus grand que un, le rapport de probabilités chez les sujets exposés est plus grand que le rapport ches les sujets non exposés, on en déduit que le risque de maladie est plus élevé chez les sujets exposés (le facteur d'exposition est un facteur de risque). 
A l'inverse, si l'OR est plus petit que un, le rapport de probabilité chez les sujets exposés est plus petit que le rapport ches les sujets non exposés, on en déduit que le risque de maladie est moindre chez les sujets exposés que chez les sujets non exposés (le facteur d'exposition est un facteur protectif).
Si l'OR vaut 1, on concut à l'absence d'association entre la maladie et l'exposition.

Remarque:
En anglais, le rapport p/(1-p) s'appelle odds, d'où le terme d'odds ratio pour cette mesure d'association.
L'odds est appelé côte en français, et l'on peut trouver dans la littérature le terme Rapport de Côte (RC) pour désigner l'odds ratio.

 


 

Dans le message du 30 novembre, la régression logistique multiple est abordée.

 

 

Publicité
Publicité
Commentaires
E
Bonjour<br /> <br /> En effet; j'ai parcouru les messages sur le blog mais j'ai toujours quelques difficultés sur l'analyse des données. je vais savoir comment on traite les variables de type "option et case à cocher"; en tout cas j'ai beaucoup de difficulté et je veux savoir si c'est possible de les mettre ensemble pour les analyser. en plus comment faire les analyses multivariées avec ces types de variable???<br /> <br /> merci beaucoup pour l'aide que vous m'apporterez.
Répondre
Publicité