Blog ENI : Toute la veille numérique !
Accès illimité 24h/24 à tous nos livres & vidéos ! 
Découvrez la Bibliothèque Numérique ENI. Cliquez ici
💥 Les 22 & 23 novembre : Accès 100% GRATUIT
à la Bibliothèque Numérique ENI. Je m'inscris !
  1. Livres et vidéos
  2. Langage R et statistiques
  3. La comparaison à une valeur théorique
Extrait - Langage R et statistiques Initiation à l'analyse de données
Extraits du livre
Langage R et statistiques Initiation à l'analyse de données
1 avis
Revenir à la page d'achat du livre

La comparaison à une valeur théorique

Quand comparer à une valeur théorique ?

Dans le chapitre précédent, les tests d’hypothèses ont été réalisés afin de comparer la distribution des variables aux distributions attendues. Cette fois, les données de la distribution de la variable vont être comparées à une valeur (moyenne, variance…), et dans la plupart des cas, l’hypothèse à vérifier est que la variable suit une loi normale.

Par exemple, la responsable d’une chaîne de production doit arrêter la machine lorsque la proportion d’erreurs dépasse la limite acceptée.

Pour tous les tests réalisés dans ce chapitre, excepté le test de Wilcoxon et celui de Kolmogorov-Smirnov, les conditions à remplir sont similaires :

  • Les données suivent une loi normale ou peuvent être approximées par une loi normale.

  • Les données sont indépendantes.

L’approximation d’une variable de comptage par la loi normale est possible lorsque n est grand et que la probabilité de succès n’est pas trop faible : n > 30 et n * p > 5. L’approximation d’une autre variable quantitative par la loi normale est possible lorsque n est grand : n > 30. Ces approximations sont mathématiquement expliquées par le théorème central limite.

Si les données sont indépendantes sans suivre une loi normale, il est conseillé d’utiliser un test du Khi-2 (cf. chapitre Les tests d’hypothèses) pour comparer la distribution aux valeurs attendues. Un test non paramétrique peut aussi être utilisé, comme le test de Kolmogorov-Smirnov.

Si les données sont liées les unes aux autres, pour l’étude de la moyenne, généralement c’est la différence...

Théorème central limite

1. Histoire et utilisation du théorème central limite

L’approximation par la loi normale d’une variable est possible grâce au théorème central limite. Initialement appliqué par Abraham de Moivre en 1733 quand la variable suit une loi de Bernouilli, il a ensuite été élargi. Pierre-Simon de Laplace a publié la première démonstration en 1809.

La loi normale est omniprésente en biologie mais aussi dans beaucoup de comptages ou de descriptions. En effet, l’accumulation d’événements conduit à la loi normale.

2. Énoncé du théorème central limite

Soit X1, X2, X3... Xn, un ensemble de n variables aléatoires définies sur le même intervalle de probabilité, indépendantes et suivant la même loi de probabilités non explicitée D. Comme les variables aléatoires suivent la même loi, l’espérance images/02eq81.PNG et la variance images/02eq82.PNG sont les mêmes pour toutes les variables.
Par exemple, l’expérience de 50 lancers d’un dé correspond à la situation décrite. En effet, chaque lancer suit la loi de probabilités uniforme sur l’intervalle 1, 6 : U(1,6) avec images/05eq01.PNG et images/05eq02.PNG. Chaque lancer de dé est indépendant des autres lancers (la valeur d’un lancer n’influence pas les autres).
Une fois l’ensemble des variables défini, la somme est calculée : images/05eq03.PNG. Par définition, images/05eq04.PNG est une variable aléatoire d’espérance images/05eq05.PNG et de variance images/05eq06.PNG.
Dans l’exemple des 50 lancers d’un dé, images/05eq04.PNG représente la somme des 50 lancers. Son espérance est images/05eq07.PNG et images/05eq08.PNG.
Lorsque n est suffisamment grand, la variable images/05eq04.PNG peut être approximée par une loi normale de mêmes paramètres : images/05eq10.PNG.
Dans...

Comparaison d’une proportion à une valeur théorique

1. Exemples de comparaison d’une proportion à une valeur théorique

Comme détaillé précédemment, la variable d’intérêt suit une loi normale ou est approximée par une loi normale et les données sont indépendantes.

La formulation des hypothèses du test z à un échantillon dépend de son but :

  • La proportion mesurée est égale à la valeur théorique images/05eq19.PNG. C’est un test bilatéral, donc images/05eq15.PNG et images/05eq16.PNG.
    Par exemple, pour valider un échantillon prélevé parmi la population, le genre-ratio doit être équilibré. Donc, l’hypothèse nulle est que la proportion de femmes dans l’échantillon est égale à celle des hommes, soit images/05eq17.PNG, et l’hypothèse alternative est que la proportion n’est pas la même, soit images/05eq18.PNG. C’est un test bilatéral, seule l’égalité est acceptable. 
  • La proportion mesurée est inférieure à la valeur théorique images/05eq19.PNG. C’est un test unilatéral à droite, donc images/05eq20.PNG et images/05eq21.PNG.
    Par exemple, la chaîne de production doit être arrêtée si la proportion de pièces défectueuses dépasse les 10 %. Donc, images/05eq22.PNG et images/05eq23.PNG. Il n’est pas utile de tester la normalité des données si la production est de plus de 50 pièces. En effet, np > 5, donc n > 50.
  • La proportion mesurée est supérieure à la valeur théorique images/05eq19.PNG. C’est un test unilatéral à gauche, donc images/05eq24.PNG et images/05eq25.PNG.
    Par exemple, les sacs de bonbons ne sont commercialisables que si la proportion de bonbons noirs par rapport aux autres est supérieure à 20 %. Les hypothèses du test sont donc images/05eq26.PNG et images/05eq27.PNG.
La statistique de test pour comparer...

Comparaison d’une moyenne à une valeur théorique

1. Test de Student

Le test de Student a initialement été présenté dans la revue Biometrika en 1908, dans l’article "The Probable Error of the Mean" écrit par William Gosset sous le pseudonyme de Student. Ce statisticien anglais, employé à la brasserie Guinness à Dublin, a développé ce test pour contrôler la qualité de la stout, mais la politique de confidentialité de l’entreprise l’empêchait de publier ses découvertes sous son nom propre, d’où l’utilisation du pseudonyme "Student" qui a donné son nom à ce test très utilisé. Comme le révèle le titre de l’article, le sujet principal du test de Student est de travailler sur la moyenne. Initialement, le test ne permettait pas de travailler sur des échantillons de grande taille, c’est Ronald Fisher qui a permis la généralisation du test.

Dans cette partie, seule la comparaison de moyenne issue d’une loi normale à une valeur est abordée, mais le test de Student permet aussi de comparer les moyennes issues de deux lois normales de même variance ou de variances différentes (test t de Welch) et même de traiter des données appariées comme développé dans la section Test de Student apparié de ce chapitre. Les tests t de Student et de Welch seront développés dans le chapitre La comparaison de deux groupes.

Le test de Student de comparaison à une valeur théorique est utilisé sur les chaînes pour vérifier la qualité de la production, mais aussi en biologie pour valider que l’échantillonnage est bien représentatif de la population ou en marketing pour catégoriser une clientèle....

Comparaison d’une variance à une valeur théorique

1. Variance d’une variable

Plus fréquemment utilisée pour comparer deux groupes, la variance peut aussi être comparée à une valeur de référence, par exemple pour trier les légumes ou les fruits de mer.

La variance est une mesure abstraite qui permet de caractériser la dispersion d’un échantillon ou d’une distribution, quand c’est la variance d’une loi de probabilités.

Si la variance d’une loi de probabilités est souvent notée V(X), la variance d’un échantillon est notée images/05eq85.PNG. La variance est la moyenne des écarts à la moyenne, donc par définition elle est toujours positive :
images/05eq86.PNG

ou :

images/05eq87.PNG

Si la variance est nulle, cela signifie que toutes les valeurs sont identiques !

L’écart-type, généralement noté images/05eq88.PNG, est la racine carrée de la variance.

La variance d’une variable se calcule très facilement dans R grâce à la fonction var() présente dans le package {stats}.

var(women$weight) 

2. Test de comparaison de la variance à une valeur théorique

À notre connaissance, il n’existe pas de fonction permettant de comparer directement la variance d’une variable à une valeur théorique, mais la statistique de test est simple à calculer.

Le test d’hypothèses se déroule comme la comparaison d’une moyenne à une valeur théorique. L’hypothèse nulle est que la variance de la variable est égale à la valeur théorique, et l’hypothèse alternative qu’elle n’est pas égale. La statistique de test suit une loi du Khi-2, donc l’hypothèse nulle est rejetée lorsque la valeur calculée est supérieure...

Test de Kolmogorov-Smirnov

Le test de Kolmogorov-Smirnov, est un test non paramétrique qui permet de comparer une variable à un type de distribution avec les paramètres associés. Par exemple, il est possible de comparer une variable à une loi normale centrée réduite ou à une loi normale de paramètres 3 et 2.

Il est nécessaire pour réaliser un test de Kolmogorov-Smirnov de connaître a priori les paramètres de la loi de probabilités à laquelle la variable est comparée. Ce point peut être un atout comme un frein en fonction de la question posée.

Le test de Kolmogorov-Smirnov est basé sur l’écart maximum observé entre les données étudiées et les données calculées à partir de la loi de probabilités sélectionnée et des paramètres choisis. Il faut donc mettre en argument les paramètres adaptés à la loi de distribution sélectionnée.

Les distributions implémentées dans le package {stats} sont accessibles via l’aide ?distribution (avec ou sans "s").

?distribution 
images/05R17.png

Figure 05-17 : La page d’aide obtenue permet de visualiser toutes les distributions de loi de probabilités que l’on peut utiliser (par exemple, dnorm pour la loi normale, dexp pour la loi exponentielle).

La démarche est la même que celle des autres tests d’hypothèses. La formulation de l’objectif du test et des hypothèses nulle et alternative, le calcul de la statistique de test et la comparaison à la valeur seuil et/ou le calcul de la probabilité. 

La statistique de test calculée est images/05eq97.PNG. Elle est basée sur la distance maximale entre la fonction de répartition empirique de l’échantillon images/05eq97a.PNG et la fonction...