F.A.Q.

Vous trouverez ici les réponses à diverses questions sur R et FactoMineR ainsi qu'à des questions spécifiques aux options graphiques.

Questions diverses

Comment installer R pour la première fois ?

Cliquez ici pour voir un tutoriel animé.

Comment installer le plug-in Rcmdr de FactoMineR par Rcmdr ?

Téléchargez le package RcmdrPlugin.FactoMineR à ajouter au FactoMineR GUI dans Rcmdr :

  • téléchargez le package FactoMineR (sur le CRAN ou sur le site internet de FactoMineR)
  • téléchargez le package Rcmdr (sur le CRAN)
  • téléchargez le package RcmdrPlugin.FactoMineR (sur le CRAN ou sur le site internet de FactoMineR)
  • ouvrez une session R puis tapez : library(FactoMineR)
  • ouvrez une session Rcmdr : library(Rcmdr)
  • cliquez sur Outils -> chargez des plug-ins Rcmdr et choisissez RcmdrPlugin.FactoMineR

Comment les valeurs manquantes sont-elles prises en compte ?

Par défaut, dans FactoMineR, les valeurs manquantes sont remplacées par la moyenne de chaque variable ce qui n'est pas un moyen très pratique ni approprié, surtout dans le cas où les valeurs manquantes sont nombreuses dans le jeu de données. Nous avons implémenté le package missMDA qui permet de gérer les valeurs manquantes en ACP, en ACM et en AFM.

Comment l'ACP se comporte-t-elle en grande dimension ?

Pour l'instant, FactoMineR n'est pas un outil efficace pour traiter de très gros jeux de données. Les représentations graphiques ne supportent pas ce genre de jeux de données. Néanmoins, il sera (bientôt) possible de sélectionner uniquement quelques scores et loadings des gros jeux de données en pré-traitement.

Qu'est-ce qu'une variable supplémentaire ?

Une variable supplémentaire est une variable qui ne sera pas prise en compte lors de la construction des axes factoriels i.e. lors du calcul des distances entre les individus.
Quelle que soit la méthode que vous utilisez, seules les variables actives seront prises en compte pour la construction du plan factoriel.

Où trouver les scores et loadings dans res.pca?

Les scores (i.e. coordonnées principales) se trouvent dans : res.pca$ind$coord La variance des coordonnées des individus pour une dimension correspond à la valeur propre de cette dimension.

Les loadings (i.e. coordonnées standardisées) ne sont pas donnés dans les sorties de FactoMineR. Ce sont les coordonnées principales qui sont retournées dans les sorties.
Vous pouvez calculer les loadings en divisant les coordonnées des variables sur une dimension par la racine carrée de la valeur propre de cette dimension.
Ecrivez : sweep(res.pca$var$coord,2,sqrt(res.pca$eig[1:ncol(res.pca$var$coord),1]),FUN="/")

Que sont les contributions ?

La contribution d'un point à l'inertie d'un axe est le quotient de l'inertie de sa projection par l'inertie de la projection de l'ensemble du nuage sur cet axe.

J'ai supprimé quelques individus et par là certaines modalités qui n'étaient prises que par ces individus. Cependant, R a toujours ces modalités avec 0 individus en mémoire, comment puis-je recoder les variables ?

Supposons X votre variable d'intérêt avec trois modalités : A, B et C. Après avoir supprimé quelques individus, la modalité B correspond à un effectif nul d'individus.
Pour supprimer la modalité B de R, tapez la ligne de code suivante : dataset[,X] <- factor(as.character(dataset[,X]))

Dois-je réduire les variables pour faire une ACP ?

Si les variables ne sont pas mesurées dans les mêmes unités, il est nécessaire de les réduire.
Si les variables ont la même unité, leur influence dans le calcul est équilibrée du point de vue de leur écart-type respectif. Réduire les variables revient alors à leur accorder à toutes la même importance. Sachant cela, la réduction ou non est votre choix.

Ce package réalise une ACP basée sur une matrice de corrélations. Est-il possible d'utiliser une matrice de covariance plutôt qu'une matrice de corrélation ?

Quand vous choisissez de réaliser une ACP non normée, c'est une matrice de covariance qui est utilisée au lieu d'une matrice de corrélations. Choisissez simplement l'option scale.unit=FALSE au moment de lancer l'ACP.

Je me demandais, pour la fonction d'AFM, ce que les différents types "c", "n" et "s" signifient ?

"c" et "s" servent pour les variables quantitatives : avec "s", les variables sont normées, avec "c" elles sont seulement centrées.
"n" est pour les variables qualitative.
Par défaut, toutes les variables quantitatives sont normées.

Options graphiques

Comment ajouter un titre à mon graphe ? Peut-on changer l'échelle des axes ?

Tous les graphiques sont obtenus par les fonctions plot.PCA(), plot.MCA(), plot.CA()... Pour changer les options graphiques, regardez les aides de ces fonctions.
Par exemple pour ajouter un titre au graphe d'une ACP et changer l'échelle de l'axe des abscisses, faites une ACP avec l'option graph=FALSE puis réalisez le graphe avec la fonction plot.PCA():

res.pca = PCA(mydata, graph=FALSE)
plot(res.pca, main="Title of my graph", xlim=c(-2,3))

Comment regrouper plusieurs graphes dans une même fenêtre ?

Utilisez par exemple la fonction plot.PCA() si vous faites une ACP (sinon utilisez les autres fonctions graphiques) avec l'argument new.plot = FALSE.
Par exemple: data(decathlon)
res.pca <- PCA(decathlon, quanti.sup = 11:12, quali.sup=13,graph=FALSE)
par(mfrow=c(1,2))
plot(res.pca,choix="ind",new.plot=FALSE)
plot(res.pca,choix="var",new.plot=FALSE)

J'ai trop de variables à représenter et ne vois plus rien sur mon graphe, comme puis-je ne dessiner que les variables les mieux représentées ?

Utilisez l'option lim.cos2.var de la fonction graph.var(). Elle vous permet de choisir une valeur du cosinus carré en-dessous de laquelle les variables ne seront pas dessinées.

J'aimerais ne représenter que les individus supplémentaires, comment ne pas dessiner les individus actifs ?

Utilisez l'option invisible de la fonction plot.PCA() (ou plot.MCA,...). plot.PCA(res.pca, choix="ind",invisible="ind") Pour plus de détails, voyez: help(plot.PCA)