Problématique

On étudie un caractère quantitatif donné (=variable aléatoire quantitative) noté X (exemple: tension artérielle, glycémie, âge des personnes interrogées…).
On mesure ce caractère dans un échantillon d'individus de taille n tiré d'une population.
Par ailleurs on a la moyenne (l'espérance) théorique de X dans une population de référence, notée μ0 et sa variance notée σ2 (écart type noté
σ).

La question est de savoir si la moyenne de X,  dans l'ensemble de la population d'où est issu notre échantillon, notée 
μ, est égale à cette moyenne théorique μ0 de la population de référence (c'est l'hypothèse nulle H0 pour un test bilatéral) ou si les deux moyennes sont statistiquement différentes (c'est l'hypothèse alternative H1).

C'est ce que l'on appelle un test de conformité.



Tests à réaliser

 

  1. Si la taille de notre échantillon est plus grand que 30 individus (n > 30) et si la variance théorique σ2 de X est connue,
    ou si le nombre d'individus est inférieur à 30 (n ≤ 30), si X suit une loi normale et si la variance théorique σ2 de X est connue,
    alors on peut calculer la statistique U, à partir de σ2, qui sous l'hypothèse nulle suit une loi normale centrée réduite ( N(0,1) ).
    Statistique U 1
  2. Si la taille de notre échantillon est plus grand que 30 individus (n ≥ 30)  et si la variance théorique σ2 de X est inconnue,
    alors on calcule la statistique U, mais cette fois à partir de S2, l'estimation de la variance de X à partir de notre échantillon (ou de S l'écart type estimé), U suivant, sous l'hypothèse nulle, une loi normale centrée réduite ( N(0,1) ).
    Statistique U 2
  3. Si notre échantillon est inférieur à 30 (n ≤ 30), si X suit une loi normale et si la variance théorique σ2 de X est inconnue,
    alors on calcule la statistique t qui, sous l'hypothèse nulle, suit une loi de Student à n-1 degrés de liberté.
    Statistique t

Application des tests avec le logiciel R

Rlogo

 

1. Calcul de la statistique U, σ2 étant connu

Exemple:

La glycémie moyenne dans une population de référence est μ0 = 1 g/l et sa variance σ2 = 0,01 (g/l)2.
On mesure la glycémie dans un échantillon de 42 patients.
On trouve une moyenne de 1,06 g/l.

Cet échantillon est-il représentatif de la population de référence ?

Pour le tester, on calcule la statistique U, car n est supérieur à 30.

Voilà comment on procède avec R en utilisant la fonction pnorm(x) qui donne la valeur de la fonction de distribution de la loi normale centrée réduite:

on calcule d'abord la statistique U,
puis le probabilité critique pobs que le u observé ait la valeur obtenue si l'hypothèse nulle est vraie.

Calcul R 1 comp moy theo

On obtient pobs=0,0001
soit une valeur bien inférieure à 0,05, valeur seuil souvent retenue.
Donc on rejette l’hypothèse nulle, et on en conclut que la moyenne de la glycémie de l'échantillon est statistiquement différente de celle de référence, l'échantillon n'est pas représentatif de la population de référence.

2. Calcul de la statistique U, σ2 étant inconnue

Exemple:

La glycémie moyenne dans une population de référence est μ0 = 1 g/l et sa variance est inconnue.
On mesure la glycémie dans un échantillon de 42 patients.
On trouve une valeur moyenne de 1,06 g/l.

Cet échantillon est-il représentatif de la population de référence ?

Pour le tester, on calcule la statistique U, car n est supérieur à 30, à partir de l'estimation de la variance S2 de notre échantillon, car la variance dans la population de référence est inconnue.

Voilà comment on procède avec R en utilisant la fonction pnorm(x) qui donne la valeur de la fonction de distribution de la loi normale centrée réduite:

les valeurs mesurées dans notre échantillon étant dans le vecteur nommé "glycémie", on calcule d'abord la moyenne et la variance des mesures,
puis la statistique U à partir des résultats précédents.
Ensuite, on calcule la probabilité critique pobs que le u observé ait la valeur obtenue si l'hypothèse nulle est vraie.

Calcul R 2 comp moy theo

On obtient pobs=0,0006
soit une valeur bien inférieure à 0,05, valeur seuil souvent retenue.
Donc on rejette l’hypothèse nulle, et on en conclut que la moyenne de la glycémie de l'échantillon est statistiquement différente de celle de référence, l'échantillon n'est pas représentatif de la population de référence.

3. Calcul de la statistique t

Exemple:

La glycémie moyenne dans une population de référence est μ0 = 1 g/l et sa variance est inconnue.
On mesure la glycémie dans un échantillon de 15 patients.
On trouve une valeur moyenne de 1,06 g/l.

Cet échantillon est-il représentatif de la population de référence ?

Pour le tester, on calcule la statistique t, à partir de l'estimation de la variance S2, car n est inférieur à 30, et la variance dans la population de référence est inconnue.

Voilà comment on procède avec R en utilisant la fonction t.test() qui effectue le test de Student:

les valeurs mesurées dans notre échantillon étant dans le vecteur nommé "glycémie", on applique la fonction t.test() avec le vecteur "glycemie" en paramètre, ainsi que 1 pour la valeur de la moyenne de référence (paramètre appelé mu).

Calcul R 3 comp moy theo

On obtient un valeur p de 0,11
soit une valeur supérieure à 0,05, valeur seuil souvent retenue.
Donc on ne rejette pas l’hypothèse nulle, et on en conclut que la moyenne de la glycémie de l'échantillon est statistiquement égale à celle de référence, l'échantillon est représentatif de la population de référence.



Fiche récapitulative

 Fiche 2