analyse en composantes principales
STATISTIQUES
L’étude d’une population statistique de taille n passe le plus souvent par le recueil d’un nombre élevé p de données quantitatives par élément observé. L’analyse de ces données doit tenir compte de leur caractère multidimensionnel et révéler les liaisons existantes entre leurs composantes.
L’analyse en composantes principales (ACP), introduite en 1901 par K. Pearson et développée par H. Hotelling en 1933, est une méthode très puissante pour explorer la structure de telles données. Chaque donnée étant représentée dans un espace à p dimensions, l’ensemble des données forme un « nuage de n points » dans Rp. Le principe de l’ACP est d’obtenir une représentation approchée du nuage dans un sous-espace de dimension faible k par projection sur des axes bien choisis. Une métrique dans Rp étant choisie (en général normalisée par l’utilisation de variables centrées réduites), les k axes principaux sont ceux qui maximisent l’ »inertie » du nuage projeté, c’est-à-dire la moyenne pondérée des carrés des distances des points projetés à leur centre de gravité . Les composantes principales sont les n vecteurs ayant pour coordonnées celles des projections orthogonales des n éléments du nuage sur les k axes principaux.
L’ACP construit ainsi de nouvelles variables, artificielles, et des représentations graphiques permettant de visualiser les relations entre variables, ainsi que l’existence éventuelle de groupes d’éléments et de groupes de variables.
L’interprétation de ces représentations est délicate et doit respecter une démarche rigoureuse.