Analyse Factorielle Multiple

L'Analyse Factorielle Multiple est dédiée aux tableaux de données où les variables sont structurées en groupes. Plusieurs jeux de variables (continues ou qualitatives) sont ainsi étudiées simultanément.

Cette méthode particulière est utile dans de nombreux domaines où les variables sont structurées en groupes. Par exemple :

  • Génomique : variables protéines, variables ADN
  • Analyse sensorielle : variables sensorielles et variables physico-chimiques
  • Questionnaires : santé des étudiants (variables de consommation de drogue, variables de condition psychologique, sommeil, variables d'identification,...)
  • Comparaison de codes (variables continues, variables qualitatives)

Prendre en compte cette structure des données permet de :

  • Equilibrer l'influence de chaque groupe de variables
  • Etudier les liens entre les groupes de variables
  • Récupérer les graphiques classiques mais aussi des graphiques particuliers :
    • Représentations partielles (individus vu par un groupe de variables)
    • Groupes de variables

Pour plus d'information sur l'AFM, regardez les documents suivants :
Multiple Factor Analysis: main features and application to sensory data
Multiple Factor Analysis presentation (french)
SFDS 2008 slides about FactoMineR
User! 2007 slides about FactoMineR

L'exemple illustré ici porte sur l'évaluation sensorielle de vins rouges.
Chargez le jeu de données en cliquant ici.

Présentation des données

Le tableau de données comporte 21 lignes (vins) et 31 colonnes.
Les deux premières colonnes sont des variables qualitatives : le label (Saumur, Bourgueil ou Chinon) et le type de sol (Référence, Env1, Env2 ou Env4).
Les 29 colonnes suivantes sont des variables sensorielles continues. La moyenne sur les juges est donnée pour chaque vin.

Dataset wine cliquez pour voir

Pour charger le package et le tableau de données, entrez la ligne de code suivante : library(FactoMineR)
data(wine)

Objectifs

On veut caractériser les vins. On cherche une typologie des vins.

La méthode appropriée pour caractériser les vins par des variables continues est l'Analyse en Composantes Principales.
Cependant, le tableau de données est structuré en différents groupes de variables :

  • Un groupe qualitatif (variables label et soil)
  • Un groupe concernant l'odeur avant agitation (variables Odor.Intensity.before.shaking, Aroma.quality.before.shaking, Fruity.before.shaking, Flower.before.shaking et Spice.before.shaking)
  • Un groupe concernant l'évaluation visuelle (variables Visual.intensity, Nuance et Surface.feeling)
  • Un groupe concernant l'odeur après agitation (variables Odor.Intensity, Quality.of.odour, Fruity, Flower, Spice, Plante, Phenolic, Aroma.intensity, Aroma.persistency et Aroma.quality)
  • Un groupe concernant le goût (variables Attack.intensity, Acidity, Astringency, Alcohol, Balance, Smooth, Bitterness, Intensity et Harmony)
  • Et un dernier groupe concernant une appréciation globale (variables Overall.quality et Typical)

De nouveaux objectifs apparaissent comme comparer les groupes de variables (deux groupes de variables sont proches si deux vins proches l'un de l'autre du point de vue du premier groupe de variables le sont aussi du point de vue du deuxième) et mettre en évidence une typologie des groupes ou comparer de façon simultanée les typologies des vins vus par chaque groupe de variables pris un par un.

AFM

On va étudier les profils de vins selon l'évaluation sensorielle. On utilisera comme groupes actifs les groupes odor, visual, odor after shaking et taste et comme groupes illustratifs les groupes origin et overall.

Tapez : res = MFA(wine, group=c(2,5,3,10,9,2), type=c("n",rep("s",5)), ncp=5, name.group=c("origin","odor","visual","odor.after.shaking", "taste","overall"), num.group.sup=c(1,6)) #wine: le tableau de données utilisé
#group: un vecteur indiquant le nombre de variables de chaque groupe
#type: le type des variables de chaque groupe. "s" pour des variables continues normées, "c" pour des variables continues centrées (non normées) et "n" pour des variables qualitatives
#ncp: le nombre de dimensions gardées dans les résultats
#name.group: les noms des groupes
#num.group.sup: les index des groupes illustratifs

Multiple Factor Analysis: scatterplot of variablescliquez pour voir Multiple Factor Analysis: scatterplot of individuals and categories

Ces premiers résultats s'interprètent de la même façon que ceux d'une ACP.

La représentation des variables montre que la plupart des variables sont fortement corrélées à la première dimensions, quel que soit le groupe auquel elles appartiennent. Cette dimension représente "intensité" et "harmonie", des notions positives communément utilisées en parlant de vins.
Les variables les plus corrélées à la deuxième dimension sont Spice before shaking et Odor intensity before shaking du groupe odor, Spice, Plant et Odor intensity du groupe odor after shaking et Bitterness du groupe taste. Cette dimension représente une caractéristique épicée, végétale, essentiellement due à l'olfaction.

Les coordonnées des individus et modalités peuvent être liées à cette interprétation des deux premières composantes principales via l'observation du deuxième graphique.
Le vin 1DAM a été évalué comme le plus "intense" et "harmonieux" contrairement aux vins 1VAU et 2ING qui sont les moins "intenses"et "harmonieux". Le deuxième axe est essentiellement dû aux vins T1 et T2. Ces deux vins étant en fait le même évalué deux fois par les juges, la deuxième dimension sera désignée comme le "cas particulier du vin T".
La plupart des modalités sont proches de l'origine du plan factoriel, ce qui signifie que ces modalités ne sont pas reliées à l'"intensité", l'"harmonie" ou au "vin T". La modalité Env4 possède des coordonnées élevées sur le deuxième axe mais uniquement en lien avec T1 et T2. La modalité Reference, a priori en relation avec un sol réputé pour la qualité des vins qu'il produit, possède des coordonnées élevées sur le premier axe et est donc positivement corrélée aux notions "intensit" et "harmonie", ce qui confirme l'a priori.

Multiple Factor Analysis: scatterplot of partial individualscliquez pour voir Scatterplot of partial categories

Le graphique des individus partiels représente chaque vin vu par chaque groupe et son barycentre. Par défaut, les deux vins avec le plus petite inertie intra-groupe et les deux vins avec la plus grande intertie intra-groupe sont représentés. Pour représenter tous les points partiels, utilisez la ligne de code suivante :
plot(res,choix="ind",partial="all")

1DAM a été évalué comme particulièrement "intense" et "harmonieux", notamment par le groupe odor : ses coordonnées sur le premier axe sont plus extrêmes du point de vue de ce groupe que de celui des autres. Du point de vue du groupe odor, 2ING était plus "intense" et "harmonieux" que 1VAU mais du point de vue du groupe taste, 1VAU était plus "intense" et "harmonieux" que 2ING.

Tous les groupes ont à peu près la même vision des modalités sauf pour la modalité Env4, ce qui reprend l'interprétation de la représentation des individus.

Multiple Factor Analysis: scatterplot of groupscliquez pour voir

Ce graphique montre la qualité de représentation de chaque groupe.
Les quatre groupes actifs ont des coordonnées rapprochées sur la première dimension ce qui signifie que leur contribution à la première composante principale est à peu près la même. Cela signifie également que la première composante principale de l'AFM est commune à tous les groupes.
Quant à la deuxième dimension, ce sont les groupes d'olfaction qui y ont les coordonnées les plus élevées. Ces deux groupes contribuent le plus à la deuxième composante principale.

Scatterplot of groups' dimensionscliquez pour voir

Ce graphe est fourni pour l'étude du lien entre les composantes principales de l'AFM et celles de chacun des groupes.
A l'exception du groupe origin, la première dimension de chaque groupe est hautement corrélée à celle de l'AFM.
La deuxième dimension de l'AFM est essentiellement corrélée à la deuxième dimension des groupes d'olfaction.