Analyse des Correspondances Multiples

A titre d'exemple , on utilise ici un tableau de données issu d'un questionnaire sur la consommation de thé.

Chargez le tableau de données en cliquant ici

Présentation des données

300 consommateurs de thé ont répondu à un questionnaire sur leur consommation de thé.
Les questions portaient sur leur façon de consommer le thé et leur image du thé. Le questionnaire comportait également des questions descriptives telles que le sexe, l'âge, la catégorie socio-professionnelle et la pratique régulière d'un sport.
Excepté l'âge, toutes les variables sont qualitatives. Le tableau de données comporte deux variables différentes pour l'âge : une continue et une qualitative.

Dataset tea cliquez pour voir

Pour charger le package et le jeu de données, tapez : library(FactoMineR)
data(tea)

Objectifs

On étudie les individus, les variables et les modalités.

  1. Etude des individus : deux individus sont prochez s'ils ont répondu de la même façon aux questions. On ne s'intéressera pas vraiment aux individus en tant que tels mais plutôt aux populations : y a-t-il des groupes d'individus ?
  2. Etude des variables et des modalités : les questions sont les même que pour l'ACP. Premièrement, on veut étudier les relations entre variables et les associations entre modalités. Deux modalités sont proches si elles ont souvent été prises ensemble. Deuxièmement, on recherche une ou plusieurs variable(s) synthétique(s) continue(s) pour résumer les variables qualitatives. Troisièmement, on cherche à caractériser des groupes d'individus par des modalités.

ACM

Dans cette étude, les variables sur l'attitude de consommation sont actives et les autres variables sont illustratives.

Tapez : res.mca = MCA(tea, quanti.sup=19, quali.sup=c(20:36))
plot.MCA(res.mca, invisible=c("var","quali.sup"), cex=0.7)
plot.MCA(res.mca, invisible=c("ind","quali.sup"), cex=0.7)
plot.MCA(res.mca, invisible=c("ind"))
plot.MCA(res.mca, invisible=c("ind", "var"))
#tea: le tableau de données utilisé
#quanti.sup: vecteur des index des variables continues illustratives
#quali.sup: vecteur des index des variables qualitatives illustratives
#invisible: les éléments à ne pas représenter
#cex: taille des caractères

Multiple Correspondence Analysis: scatterplot of individuals and categories cliquez pour voir Multiple Correspondence Analysis: scatterplot of individuals

Le nuage des individus ne montre aucun groupe d'individus particulier. Le nuage est assez homogène.

On utilise les individus extrêmes pour interpréter les composantes principales de l'ACM (cela est plus facile que d'utiliser directement les groupes d'individus). Les individus 265 et 273 aiment le thé et en boivent souvent à n'importe quel moment. Les individus 200 et 262 ne boivent du thé que chez eux, au petit-déjeuner ou le soir.

Les individus sont trop nombreux pour qu'on les regarde un par un. C'est pourquoi on a besoin d'une représentation des modalités.

Multiple Correspondence Analysis: scatterplot of variables cliquez pour voir Multiple Correspondence Analysis: scatterplot of active categories

Les variables "price", "where" et "how" sont liées à chacune des deux premières dimensions. On ne peut pas retirer beaucoup plus d'informations de ce graphe. La représentation des modalités va aider à mieux interpréter ces relations.

La première dimension oppose "tea room", "chain store+tea shop", "tea bag+unpackaged", "pub", "resto", "work" à "not friends", "not resto", "not work", "not home". Elle oppose les buveurs de thé réguliers aux buveurs occasionnels.

La deuxième dimension oppose "specialized shop", "unpackaged" et "upscale price" aux autres modalités.

Scatterplot of continuous supplementary variables cliquez pour voir

La variable "age" n'est pas bien représentée. Cependant, le nombre élevé d'individus entraîne une corrélation significative avec la deuxième dimension (0.204). Les jeunes ont tendance à acheter du thé ailleurs que dans des magasins spécialisés alors que les plus agés ont tendance à acheter du thé en vrac dans des magasins spécialisés.

Multiple Correspondence Analysis: scatterplot of categories cliquez pour voir Multiple Correspondence Analysis: scatterplot of supplementary categories

Il est assez difficile de parler des variables qualitatives illustratives car leurs modalités sont localisées au centre du graphique. Néanmoins, il est possible de cacher les modalités actives pour s'intéresser seulement aux modalités illustratives. On voit alors que les modalités de la variable "age_Q" sont ordonnées de "15-24" à "+60" le long de la deuxième dimension. Ceci est en relation avec la coordonnée positive de la variable "age" sur la deuxième dimension.

Pour obtenir une description des dimensions, tapez : dimdesc(res.mca) #res.mca: the result of an MCA

Multiple Correspondence Analysis: dimension description of the first axis - Categorical variables cliquez pour voir Multiple Correspondence Analysis: dimension description of the first axis - Categories

La première composante principale est caractérisée par les variables "where", "tea room", etc. Quelques variables qualitatives illustratives lui sont aussi corrélées comme "sex" et "conviviality".

La caractérisation par les modalités est similaire à la caractérisation par les variables mais permet plus de précision. Par exemple, la coordonnée de la modalité "tea room" est positive alors que celle de "not tea room" est négative. Cela signifie que les individus dont la coordonnée sur l'axe 1 est positive ont tendance à fréquenter les salons de thé.

Pour aller plus loin

Pour ventiler vos données, utilisez l'option suivante : level.ventil Cette option permet de choisir un seuil en-dessous duquel la modalité est ventilée. La valeur par défaut est de 0 pour aucune ventilation.

Il est possible de tracer des ellipses de confiance avec la fonction plotellipses() : plotellipses(res.mca,keepvar=c(20:23)) #res.mca: le résultat d'une ACM
#keepvar: un vecteur d'index (ou de noms) des variables à représenter

Multiple Correspondence Analysis: confidence ellipses around the categories of four variables cliquez pour voir