5.2 Autoévaluation

Question 1

a. Lequel des éléments suivants s’avère un problème pour le test du khi carré (\(\chi^2\))?

  1. Fréquences observées < 3.
  2. Fréquences théoriques < 5.
  3. Hétérogénéité de la variance.
Réponse (b) Fréquences théoriques < 5. La restriction concerne les fréquences théoriques et non observées. L’hétérogénéité de la variance est une supposition de modèles qui dépendent de la distribution normale, tels que le test-\(t\) de Student.


b. Un tableau de contingence résume les fréquences pour chaque combinaison des niveaux de deux variables catégoriques différentes. Vrai ou faux?

Réponse Vrai


c. Nommez un test équivalent au \(\chi^2\) qui s’applique dans les mêmes conditions que ce dernier.

Réponse Le test-\(G\) est un test équivalent au \(\chi^2\).


Question 2

Un concessionnaire automobile désire mieux cibler sa clientèle dans une ville. Il demande une étude d’observation afin de déterminer si les résidants de quatre arrondissements (A, B, C, D) d’une même ville utilisent plutôt des voitures produites par des manufacturiers domestiques (GM, Chrysler, Ford) ou produites par des compagnies étrangères (p.ex., Honda, Toyota, Subaru, Mitsubishi, Mazda, Nissan, Suzuki, Kia, Hyundai, BMW, VolksWagen, Mercedes, Mini, Volvo, SAAB, SMART). On échantillonne aléatoirement 300 voitures dans les quartiers de chacun des quatre arrondissements. On note la marque de chaque voiture. Le tableau 5.8 présente les données.

Table 5.8: Tableau de données des fréquences pour chaque type de véhicule (importé ou domestique) dans les quatre arrondissements (A, B, C, D).
A B C D
Domestique 125 223 62 180
Importé 175 77 238 120

a. Créez un objet approprié pour stocker les données de ce tableau de contingence.

Réponse

On peut stocker les données dans une matrice:

##matrice
autos <- matrix(data = c(125, 223, 62, 180, 
                      175, 77, 238, 120), nrow = 2, ncol = 4, byrow = TRUE)
##on peut ajouter les étiquettes
colnames(autos) <- c("A", "B", "C", "D")
rownames(autos) <- c("Domestique", "Importe")
##visualisons le tout
autos
##              A   B   C   D
## Domestique 125 223  62 180
## Importe    175  77 238 120


b. Énoncez les hypothèses statistiques pour l’analyse de ces données, ainsi que le seuil de signification.

Réponse

On peut tester les hypothèses statistiques suivantes, soit formulées en terme d’indépendance ou encore en terme de proportions. Les deux formulations sont équivalentes.

Formulation en termes d’indépendance :
\(H_0\) (indépendance): L’origine des véhicules est indépendante de l’arrondissement de la ville.
\(H_a\) (non-indépendance): L’origine des véhicules n’est pas indépendante de l’arrondissement de la ville.
\(\alpha = 0.05\)

OU

Formulation en termes de proportions :
\(H_0\): La proportion des véhicules d’origine domestique ne diffère pas selon l’arrondissement de la ville.
\(H_a\): La proportion des véhicules d’origine domestique diffère selon l’arrondissement de la ville.
\(\alpha = 0.05\)


c. Choisissez l’analyse appropriée et justifiez votre choix.

Réponse On peut analyser les données du tableau de contingence avec un test du \(\chi^2\) puisque les données ont été obtenues à l’aide d’un dispositif complètement aléatoire et parce que nous avons 5 fois plus d’observations qu’il y a de cellules dans le tableau (300 fois plus d’observations). Par conséquent, aucune fréquence théorique n’est inférieure à 5.


d. À l’aide de R, effectuez l’analyse que vous avez choisie précédemment et interprétez les résultats.
Réponse

Si on a choisi le \(\chi^2\), on procédera comme suit :

out.autos <- chisq.test(x=autos) 
On observe un \(\chi^2\) de 194.36 avec trois degrés de liberté et \(P(\chi^2_{0.05, 3} > 194.36) < 0.0001\). On rejette \(H_0\) et on conclut que l’origine des véhicules n’est pas indépendante de l’arrondissement. L’interprétation alternative, en termes de proportion, indique que la proportion de véhicules d’origine domestique varie avec le quartier. En d’autres mots, la compagnie peut viser certains quartiers afin d’optimiser sa campagne de publicité.


e. Est-il approprié d’identifier les différences significatives entre les fréquences observées ? Dans l’affirmative, veuillez effectuer l’analyse prévue à cet effet. Que pouvez-vous conclure ?

Réponse

Il est pertinent d’identifier les différences entre les fréquences observées lorsqu’on rejette l’hypothèse nulle. Les résidus de Pearson sont les suivants :

##on extrait les résidus de Pearson des résultats du test
out.autos$residuals
##                    A         B         C         D
## Domestique -1.852621  6.216572 -7.039959  2.676008
## Importe     1.821997 -6.113811  6.923588 -2.631773

L’étude de ces résidus indique qu’un concessionnaire de voitures fabriquées par des compagnies étrangères aura tout intérêt à cibler l’arrondissement C, puisque la proportion de leurs véhicules y est significativement plus élevée. Si, à l’inverse, la concession représente des manufacturiers domestiques, les arrondissements B et D devraient être considérés.

Des valeurs de résidus près des limites de signification pour l’arrondissement A mènent à s’interroger sur la pertinence de s’intéresser à cette partie du territoire. La commande ci-dessous permet de connaître les différences entre les fréquences observées et théoriques. On remarque que ces différences sont les plus faibles. Il n’y a donc pas lieu de s’intéresser formellement à cet arrondissement pour accroitre les ventes de voitures importées.

out.autos$observed-out.autos$expected
##                A     B     C     D
## Domestique -22.5  75.5 -85.5  32.5
## Importe     22.5 -75.5  85.5 -32.5