Peut-on croire dans les valeurs imputées ?

Quelque soit la méthode d'imputation utilisée pour compléter un jeu de données, se pose toujours la question de savoir quelle est la qualité de l'imputation, et si on peut réellement avoir confiance dans les valeurs imputées.

L'imputation multiple génère plusieurs tableaux imputés et la variance inter-imputation reflète l'incertitude sur les prédictions des valeurs manquantes. Le package missMDA propose une façon de visualiser l'incertitude associée aux prédictions. L'idée de base est de projeter tous les tableaux multiples imputés sur le graphe de l'ACP obtenu avec le tableau imputé "moyen".

Par exemple, pour le tableau incomplet orange, les deux graphes suivants se lisent comme suit: l'individu 6 n'a aucune incertitude (il n'a aucune valeur manquante) tandis qu'il y a beaucoup de variabilité sur la position de l'individu 10. Pour les variables, les nuages de points représentent les incertitudes sur les prédictions. Des ellipses et des nuages de points petits encouragent à poursuivre l'analyse sur les tableaux imputés car les imputations sont raisonables.

missMDA_ind_orangemissMDA_var_orange

Les graphes ci-dessus ont été obtenu après avoir fait une imputation multiple grâce à la fonction MIPCA puis en dessinant les résultats avec la fonction plot.MIPCA:

library(missMDA)
data(orange)
nbdim = estim_ncpPCA(orange) # estimate the number of dimensions to impute
plot(res.comp)

Cela donne des arguments pour répondre aux fameuses questions: "J'ai un jeu de données avec xx% de données manquantes, est-ce que je peux imputer avec votre méthode ?" or "Est-ce que 30% de valeurs manquantes cela fait trop ou pas ?" or "Quel est le pourcentage maximum de données manquantes que l'on peut avoir ?". En effet, le pourcentage de valeurs manquantes impacte la qualité de l'imputation, mais il n'est pas le seul! La structure du jeu de données (i.e. les liaisons entre variables, le nombre d'individus et de variables) est très importante. Il est en effet possible d'avoir de petites ellipses avec un fort pourcentage de données manquantes et vice-versa. C'est pourquoi ces graphes sont très importants. Les graphes suivants suggèrent de faire très attention avec les valeurs imputées, voire même de ne pas utiliser le jeu de données en raison d'une trop mauvaise qualité d'imputation. 

missMDA_ind2missMDA_var2

Cette méthodologie est également disponible pour les variables qualitatives avec les fonctions MIMCA et plot.MIMCA pour visualiser l'incertitude autour de la prédiction des modalités.