statistiques                                  Un médecin d'Abidjan en Côte d'Ivoire m'a demandé de lui indiquer un test pour savoir si "la différence de fréquence observée entre les modalités d'une variable n'est pas due au hasard".

Il existe un test qui utilise la loi du Chi2 et qui s'appelle le test du Chi2 dit de conformité.

 

Le principe de ce test est de comparer les valeurs observées (le nombre de sujets présentant chaque modalité) avec les valeurs théoriques (le nombre de sujets par modalité si la répartition des modalités est due au hasard) et de tester si les différences sont statistiquement significatives, ou si elles sont seulement dues aux "fluctuations d'échantillonnage".
Si la répartition est due au hasard chaque modalité aura autant de chance d'être présente, donc elle sera "sélectionnée" par le même nombre de sujets.

 

Par exemple si vous avez une variable à 3 modalités notées A, B et C, la probabilité qu'un individu présente l'une de ces modalités suivant le hasard est de 1/3 = 0,3333…

Donc dans un échantillon de 100 personnes, si la répartition des modalités se fait au hasard, vous devriez trouver :

ta = 100*0,3333=33,33 personnes avec la modalité A,

tb = 33,33 personnes avec la modalité B,

et tc = 33,33 personnes avec la modalité C.

Comme ce sont des valeurs théoriques, elles ne sont pas forcément entières et on parle de 33,3 individus !

Vous comparez alors ces valeurs théoriques (t), avec vos valeurs observées (n), avec la statistique du Chi2 qui s'écrit:

 

Chi² = (na - ta)² / ta + (nb - tb)² / tb + (nc - tc)² / tc

 

Le résultat de cette statistique est à comparer avec la valeur seuil d'une loi du Chi2 à 3-1 = 3 degrés de liberté (car il y a 3 modalités), pour un risque d'erreur donné (généralement 5%) que l'on trouve sur les tables de la loi du Chi2.

Ainsi pour 2 degrés de liberté et un risque d'erreur de 5 %, le seuil est de 7,81.

Si la valeur calculée est plus grande, alors on en conclut que la répartition des fréquences des modalités n'est pas due au hasard.

Si la valeur calculée est plus petite, on conclut que la répartition est due au hasard.

 

Avec 4 modalités, la probabilité de chaque modalité sera de 1/4.

De façon générale, si la répartition se fait au hasard, la probabilité de chaque modalité s'il y en a k en tout sera de 1/k;

et le nombre de degrés de liberté sera de k-1.

 

Voici quelques valeurs seuils, pour une erreur de 5 %, suivant le nombre de degrés de liberté (ddl):

avec 2 modalités, 1 ddl : 3,84

avec 3 modalités, 2 ddl: 5,99

avec 4 modalités, 3 ddl: 7,81

avec 5 modalités, 4 ddl: 9,49

avec 6 modalités, 5 ddl: 11,07

avec 7 modalités, 6 ddl: 12,59

 

Ce test peut servir par exemple à contrôler dans un questionnaire, que les personnes interrogées n'ont pas répondu au hasard à certaines questions qualitatives (parce que par exemple elles n'auraient pas compris l'intitulé de la question).

Ce test est plus généralement utilisée pour comparer la répartition des fréquences observées entre les modalités d'une variable, avec des lois de répartition théoriques. 

Attention!!!, ce test du Chi2 de conformité n'est valables que si votre échantillon a une taille de plus de 50 individus.

Avec Epi Info on ne peut pas réaliser ces calculs de test du Chi 2 de conformité, il faut faire les calculs avec un autre logiciel (comme le logiciel R) ou "à la main", avec une calculette.

Cependant pour une variable dichotomique, on peut déduire le résultat du test en utilisant dans le module d'Analyse des données la commande FREQUENCES. En effet cette commande, en plus de donner la fréquence des modalités d'une variable, donne l'intervalle de confiance à 95 % de chaque fréquence.
Ainsi pour une variable dichotomique, si les intervalles de confiance de chaque modalité n'incluent pas 0,5, on en conclut que ces fréquences ne sont pas dues au hasard.

Par exemple dans une enquête, une question est posée pour connaître le statut de fumeur ou de non fumeur des sujets (variable Tabagisme), et le résultat est :

freq tabagisme

 

Parmi les 326 personns intérogées, 80, soit 24,5 % ont répondu qu'elles fumaient.
L'intervalle de confiance à 95 % de cette fréquence est de [20,0 %; 29,7%].
Comme 50 % n'est pas inclu dans cet intervalle, on en conclut que les réponses ne sont pas dues au hasard.