Description des modalités
On complète souvent les analyses multidimensionnelles par des analyses unidimensionnelles pour caractériser certaines variables particulières.
Pour caractériser une variables qualitative et les groupes d'individus définis par ses modalités, on peut utiliser des variables continues, des variables qualitatives ou aussi des modalités.
Objectifs
On va utiliser le tableau de données "tea" et caractériser la variable "age_Q".
"age_Q" est une variables qualitative qui correspond à des groupes d'âge. Ses modalités sont "15-24", "25-34", "35-44", "45-59" et "+60".
La principale question qui se pose ici est la suivante : ces différentes modalités sont-elles particulièrement liées à d'autres variables/modalités du tableau de données ?
Chaque modalité de "age_Q" définit une sous-population : le groupe d'individus qui possèdent cette modalité. L'utilisation de la fonction catdes() va permettre de voir si chacune des sous-populations peut être caractérisée par des variables qualitatives, des modalités et des variables continues du tableau de données.
catdes
Premièrement chargez le package et le tableau de données en écrivant :
library(FactoMineR)
data(tea)
Puis lancez la fonction catdes() :
res = catdes(tea, num.var=23, proba=0.05)
#tea: le tableau de données utilisé
#num.var: l'indice de la variable qualitative à caractériser
#proba: le seuil de significativité considéré pour caractériser les modalités (par défaut 0.05)
Description par des variables qualitatives
Afin d'évaluer le lien entre chaque modalité de la variable "age_Q" et les autres variables qualitatives, un test du chi² est réalisé. Plus ce test est significatif, plus la modalité considérée et la variable qualitative sont liées.
Les résultats de ce test sont dans l'objet :
res$test.chi2
La variable qualitative la plus liée à la variable "age_Q" est "Socio-Professional Category", puis "Tea", "sugar", "work" etc...
Description par des modalités
Pour étudier le lien entre une modalité de la variable "age_Q" et une modalité d'une autre variable qualitative du tableau de données, la fonction compare deux proportions :
- la proportion d'individus qui possèdent la deuxième modalité parmi ceux qui possèdent la première
- le pourcentage global d'individus qui possèdent la deuxième modalité
Les modalités significativement liées aux modalités de la variable "age_Q" sont stockées dans l'objet :
res$category
On va s'intéresser à deux sous-populations : les groupes d'individus correspondant aux modalités "15-24" et "+60".
La modalité "student" est sur-représentée (v-test>0) parmi les individus agés de 15 à 24 ans au contraire de la modalité "senior" qui est sous-représentée (v-test<0).
La modalité "senior" est sur-représentée parmi les individus agés de plus de 60 ans et la modalité "student" y est sous-représentée.
Pour la sous-population "15-24":
- 84.3% des individus qui possèdent la modalité "student" possèdent la modalité "15-24"
- 64.1% des individus qui possèdent la modalité "15-24" possèdent la modalité "student"
- 23.3% de l'ensemble des individus possèdent la modalité "student"
Description par des variables continues
Une valeur de test est calculée pour chaque modalité de la variable "age_Q" et chaque variable continue.
Les résultats sont dans l'objet :
res$quanti
Ci-dessous les résultats des modalités "15-24" et "+60":
Cliquez pour voir
Le tableau de données ne comporte qu'une seule variable continue : la variable "age".
Cette variable est significativement liée aux modalités "15-24" et "+60" ; les individus agés de 15 à 24 ans sont significativement plus jeunes que la population globale et ceux agés de plus de 60 ans sont significativement plus vieux.