Résumé
C’est quoi ANOVA?
Analysis Of VAriance
est une méthode de test d’hypothèses sur la moyenne quand on a plus que deux populations.
La propriété qui distingue les populations est appelée un Facteur
Quand va –t-on l’utiliser?
On utilise ANOVA pour décider si les moyennes de la variable numérique sont différentes pour au moins deux valeurs du facteur.
Procédure pour une analyse ANOVA complète
1) Tracer le boxplot pour visualiser si le facteur a un effet sur les moyennes de la var. numérique
2)Effectuer le Test:
2-1 Formulation des hypothèses:
H0 : μ1 = μ2 = … μn
H1 : au moins deux des moyennes de population sont différentes.
2-2 Statistique du test Fisher:
T: nombre de type (catégorie)
n: nombre d’observations total (taille de l’échantillon)
ntype: nombre d’observations dans le type
2-3 Calcul de la p-value:
p-value=1-F.dist(F,T-1,n-T,1)
ou LOI.F.DROITE(F,T-1,n-T)
Si p-value< α→ H0 est rejetée, donc le test est concluant.
On peut conclure que le facteur a un effet sur la variable numérique.
3) Comparaisons multiples des moyennes
On construit des intervalles de confiance pour comparer des paires de moyennes à un niveau de confiance 1-α
Si l’intervalle inclut 0, alors on peut conclure que la différence n ‘est pas statistiquement significative (pas de différence) au niveau α
Si l’intervalle n’inclut pas 0, alors on peut conclure que la différence est statistiquement significative au niveau α
4) Vérifier les 2 hypotheses à postériori
1) Normalité: les moyennes de l’échantillon suivent une loi normale
à l’intérieur d’un type. Utiliser QQ plot.
Si cette hypothèse (normalité) n’est pas respectée, le test de Kruskal-Wallis peut être utilisé. Et voici un bref résumé:
Le test de Kruskal-Wallis est un test non paramétrique utilisé pour vérifier si des échantillons sont pris de la même distribution.
Le test de Kruskal-Wallis s’effectue plutôt sur les médiantes de populations.
Ce test permet de comparer deux ou plusieurs échantillons indépendants de même taille ou non.
La formulation des hypothèses est :
H0 : toutes les médianes sont égales.
H1 : au moins 2 médianes populations ne sont pas égales (différentes).
Si p value<alpha alors H0 est rejetée, ce qui signifie qu’on peut conclure que les différences entre certaines médianes sont statistiquement significatives.
Si p value>alpha alors H0 n’est pas rejetée, ce qui signifie qu’on peut conclure que les différences entre médianes ne sont pas statistiquement significatives.
Comment faire ce test ?
Je sais que vs adoriez l’effectuer comme au bon vieux temps à la main en appliquant la théorie! Mais maintenant, on est dans un univers ultra technologique, donc on se la coule douce en utilisant des logiciels ! Il en existe beaucoup.
Pour nous, on est fidèle à R.
kruskal.test( data, var.numérique~ facteur)
ou encore plus simple en quelques clics avec la librairie Rcmdr
Statistiques → tests non paramétriques→ test de Kruskal-Wallis
Excel peut être également utilisé mais il faut faire un peu plus de calcul. Ce que je ne ferai pas à moins que vs y tenez, contactez-moi
2) Homoskédasticité: les différents types ont une variance identique. Utiliser Residual versus Fitted plot
Exemple d’application
La directrice d’un centre de bien-être voudrait savoir si le type de paiement de ses clients a un effet sur le montant dépensé. Elle a pris un échantillon de 120 clients, les détails sont dans le fichier ci-joint.
Effectuez une analyse ANOVA avec un niveau de confiance de 95% pour déterminer si le type de paiement affecte le montant dépensé.
La réponse présentée dans la vidéo se trouve Ici
Exercices
Dans les opérations mathématiques le point (.) correspond à la multiplication.
Pour tous les exercices, prendre un niveau de confiance de 95%.
Exercice 1
La responsable d’un groupe de magasin souhaite savoir si le style (col V classique, col V asymétrique, col Rond classique, col Rond asymétrique des T-shirt vendus dans ses plusieurs boutiques et par différents commerciaux a un effet sur la moyenne des marges unitaires dégagées lors des derniers soldes. Les données sont dans ce fichier.
Pouvez-vous confirmer que le style des T-shirt a un effet sur la moyenne des marges unitaires dégagées lors des derniers soldes ?
Donnez toutes les étapes de votre analyse.
Réponse
On cherche à déterminer l’effet d’un facteur(style) sur la moyenne des marges unitaires dégagées (var. numérique) et on a plus que 2 populations. Donc, Anova est un test bien approprié.
Tous les détails de la solution avec Excel& R se trouve dans ce fichier.
Exercice 2
La propriétaire d’un tea room branché voudrait proposer des jus d’orange frais. Pour chaque variété, elle a pris un échantillon de 5 producteurs. Le rendement de 10kg en jus (litres) des différentes variétés est dans le tableau ci-joint.
Existe-t-il une différence significative entre ces variétés pour la moyenne des rendements ?
Réponse
On cherche à déterminer l’effet d’un facteur(variétés d’orange) sur la moyenne du rendement en jus (var. numérique) et on a plus que 2 populations. Donc, Anova est un test bien approprié.
Tous les détails de la solution avec Excel& R se trouve dans ce fichier.
Exercice 3
Un enseignant s’intéresse au nombre de livre lu par les collégiens. Il a pris un échantillon d’ élèves et les a classés selon leur milieu social mais particulièrement le niveau d’instruction des parents.
N1 : milieu ouvrier avec un niveau d’instruction de base
N2 : milieu commerçant avec un niveau d’instruction moyen
N3 : milieu cadre avec un niveau d’instruction supérieur (universitaire)
Les données sont dans ce fichier.
Le niveau d’instruction des parents a-t-il un effet sur le nombre de livre lu par les collégiens ?
Réponse
On cherche à déterminer l’effet d’un facteur(niveau d’instruction des parents) sur la moyenne du nombre de livre lu par les collégiens (var. numérique) et on a plus que 2 populations. Donc, Anova est un test bien approprié.
Tous les détails de la solution avec Excel& R se trouve dans ce fichier.
Exercice 4
Un chercheur veut déterminer s’il y a une différence de la durée de guérison du placebo et les 4 médicaments mis au point pour traiter une maladie. Les données sont dans ce fichier.
Quelle conclusion peut tirer ce chercheur ?
Réponse
On cherche à déterminer l’effet d’un facteur(type de médicaments) sur la durée moyenne de guérison en jour (var. numérique) et on a plus que 2 populations. Donc, Anova est un test bien approprié.
Tous les détails de la solution avec Excel& R se trouve dans ce fichier.