1.1 Comparaison d'une fréquence observée à une fréquence théorique

16 avril 2011

1.1 Comparaison d'une fréquence observée à une fréquence théorique

Problématique:

On étudie un caractère donné noté A (être malade, être exposé à un facteur de risque de maladie…).
On observe la fréquence f de la présence de A dans un échantillon d'individus de taille n tiré d'une population.
Par ailleurs on a la fréquence théorique de A dans une population de référence, notée p₀.
La question est de savoir si la fréquence de A, notée p, dans l'ensemble de la population d'où est issu notre échantillon, est égale à cette fréquence théorique p0 (c'est l'hypothèse nulle H0) ou si ces deux fréquences sont statistiquement différentes (c'est l'hypothèse alternative H1).
C'est ce que l'on appelle un test de conformité.

Test à réaliser

Si la taille de notre échantillon est plus grand que 30 individus (n ≥ 30) et si le nombre d'individus avec le caractère A est de plus de 5 (np ≥ 5), ainsi que le nombre d'individus ne présentant pas le caractère A ( n(1-p)≥5 ), alors on peut calculer la statistique U qui sous l'hypothèse nulle suit une loi normale centrée réduite ( N(0,1) ):

Statistique_U__1

Si notre échantillon est inférieur à 30 (n<30), alors on effectue un test binomial exact, qui consiste à calculer, à partir de la loi binomiale, sous l'hypothèse nulle, la probabilité exacte d'avoir, sous l'effet du hasard, un pourcentage aussi éloigné du pourcentage théorique que celui observé.

Syntaxe des tests avec le logiciel R.

Rlogo

1: Calcul de la statistique U

En France (population de référence) une anomalie génétique apparaît avec une fréquence de p0=0,001.
Dans une région on trouve 7 anomalies parmi 5000 naissances, soit une fréquence observée f=7/5000=0,0014.
La fréquence de cette anomalie dans la région est-elle comparable à celle de la France entière ?
On calcule pour cela la statistique U, car n est de 5000, et le nombre d'anomalies est supérieure à 5.

Voilà comment on procède avec R en utilisant la fonction pnorm(x) qui donne la valeur de la fonction de distribution de la loi normale centrée réduite:

on calcule d'abord la statistique U, puis la probabilité critique pobs que le u observé ait la valeur obtenue si l'hypothèse nulle est vraie.

Calculs_R_1

On obtient pobs=0,37 soit une valeur bien supérieure à 0,05, valeur seuil souvent retenue.

Donc on ne rejette pas l'hypothèse nulle, et on en conclut que la fréquence de l'anomalie est comparable à celle de la France entière.

Rlogo

2: Test binomial exact

Exemple: dans un échantillon de 20 personnes sélectionnées au hasard dans un service donné d'un hôpital, 6 sont exposées à des solvants. Dans l'ensemble des services de cet hôpital la fréquence de l'exposition à ces solvants est de 0,15.

Est-ce que le service étudié à un pourcentage d'exposition au solvant comparable à celui de l'ensemble de l'hôpital ?

La taille de notre échantillon étant inférieur à 30, on effectue un test binomial exact avec R en utilisant la fonction binom.test(), avec pour arguments 6, le nombre de personnes exposées, 20 la taille de notre échantillon, et 0,15, la fréquence théorique de l’exposition étudiée.

Calculs_R_2

On obtient une probabilité exacte de plus de 0,10 (p-value), donc on ne rejette pas l'hypothèse nulle au seuil 0,05, et on conclut que ce service a une fréquence d'exposition aux solvants comparable à celui de l'ensemble de l'hôpital.

Fiche récapitulative