L’analyse des données est un sous domaine des statistiques qui se préoccupe de la description de données conjointes. On cherche par ces méthodes à donner les liens pouvant exister entre les différentes données et à en tirer une information statistique qui permet de décrire de façon plus succincte les principales informations contenues dans ces données. On peut également chercher à classer les données en différents sous groupes plus homogènes.
Le but de ces méthodes est de synthétiser les grands tableaux pour en fournir une présentation simplifiée.
I.0 Les Tableaux des données
I.1 les principales méthodes de l’analyse des données
Globalement ces méthodes sont classées en méthode d’analyse factorielle et méthode des classifications.
Les premières méthodes occupent une place primordiale et sont particulièrement intéressantes parce qu’elles permettent de représentation graphique.
Ces méthodes permettent notamment de manipuler et de synthétiser l’information provenant de tableaux de données de grande taille.
Pour cela, il est très important de bien estimer les corrélations entre les variables que l’on étudie. On a alors souvent recours à la matrice des corrélations. Dans le cadre de ce travail, nous allons nous limité à deux de ces méthodes : L’analyse en composantes principales (ACP) et l’analyse factorielle des correspondants (AFC).
I.1.1 Méthode de l’Analyse en Composantes Principales (ACP).
L’ACP est une Analyse Factorielle de la famille de l’Analyse des données et de la Statistique Multi-variée, qui consiste à transformer des variables liées entre elles (dites “corrélées” en statistique) en nouvelles variables indépendantes les unes des autres (donc “non corrélées”).
Ces nouvelles variables sont nommées “composantes principales”. Elle permet au praticien de réduire l’information en un nombre de composantes plus limité que le nombre initial de variables.
L’ACP prend sa source dans un article de Karl Pearson publié en 1901. Le père du Test du χ² y prolonge ses travaux dans le domaine de la régression et des corrélations entre plusieurs variables. Pearson utilise ces corrélations non plus pour expliquer une variable à partir des autres (comme en régression), mais pour décrire et résumer l’information contenue dans ces variables.
Les champs d’application sont aujourd’hui multiples, allant de la biologie à la recherche économique et sociale, et plus récemment le traitement d’images.
A. Espace des variables
Changement d’origine : g = 0 (centrage des variables) La recherche des sous-espaces Hk se fait de proche en proche pour k=1 à p :
La détermination de H1 revient à chercher une droite passant par l’origine qui s’ajuste le mieux au nuage de points-individus (maximisant l’inertie expliquée).
Pour trouver cette droite, il faut déterminer un vecteur unitaire u1 porté par cette droite avec d(0,u1)=1. Une fois u1 déterminé, on peut démontrer que le sous-espace H2 s’ajustant au mieux au nuage de points contient nécessairement u1.
Pour déterminer le sous-espace H2, on recherche u2 tel que u2 perpendiculaire à u1 et tel que la droite portée par u2, passant par 0, ait une inertie maximale.
les vecteurs u1,u2,…,up peuvent s’obtenir à partir de la matrice d’inertie C (covariance ou corrélation) entre les variables du tableau.
Cette matrice est telle qu’il existe p vecteurs et p constantes λ qui vérifient l’équation matricielle suivante : C.v = λv Les p vecteurs v sont les vecteurs propres et les constantes associées sont les valeurs propres.
Ces vecteurs sont orthogonaux deux à deux et unitaires (de longueur égale à 1). Ils peuvent être rangés par ordre décroissant des valeurs propres associées : le premier vecteur propre v1 est associé à la valeur propre la plus élevé λ1. Les droites engendrées par ces vecteurs propres sont appelées respectivement le 1er, 2ème, et pième axe principal d’inertie du nuage.
L’inertie expliquée par H1, le premier axe Principal engendré par v1 est égale à :
I(H1)= λ1
L’inertie expliquée par H2, le plan engendré par v1 et v2 est égale à :
I(H2)= λ1+ λ2
Les valeurs propres de C représentent donc les parts d’inertie expliquée par chacun des axes principaux du nuage des individus.
La recherche d’axes portant le maximum d’inertie équivaut à la construction de nouvelles variables (auxquelles sont associés ces axes) de variance maximale.
En d’autres termes, on effectue un changement de repère dans Rp de façon à se placer dans un nouveau système de représentation où le premier axe apporte le plus possible de l’inertie totale du nuage, le deuxième axe le plus possible de l’inertie non prise en compte par le premier axe, et ainsi de suite.
On appelle axes principaux d’inertie les axes de direction des vecteurs propres de V normés à 1.
Il y en a p.
Le premier axe est celui associé à la plus grande valeur propre λ1.
On le note u1.
Le deuxième axe est celui associé à la deuxième valeur propre λ2, on le note u2.
Composantes principales
A chaque axe est associée une variable appelée composante principale.
La composante c1 est le vecteur renfermant les cordonnées des projections des individus sur l’axe 1.
La composante c2 est le vecteur renfermant les cordonnées des projections des individus sur l’axe 2.
Pour obtenir ces coordonnées, on écrit que chaque composante principale est une combinaison linéaire des variables initiales
exemple :
I.2 L’analyse factorielle des correspondances,
L’ analyse factorielle des correspondances (en sigle AFC)est une méthode statistique d’analyse des données mise au point par Jean-Paul Benzecri à l’Université Pierre-et-Marie-Curie à Paris (ISUP et Laboratoire de statistique multidimensionnelle).
La technique de l’AFC est essentiellement utilisée pour de grands tableaux de données toutes comparables entre elles (si possible exprimées toutes dans la même unité, comme une monnaie, une dimension, une fréquence ou toute autre grandeur mesurable). L’AFC sert à déterminer et à hiérarchiser toutes les dépendances entre les lignes et les colonnes du tableau.
Le principe de ces méthodes est de partir sans a priori sur les données et de les décrire en analysant la hiérarchisation de l’information présente dans les données. Pour ce faire, les analyses factorielles étudient l’inertie du nuage de points ayant pour coordonnées les valeurs présentes sur les lignes du
tableau de données.
La “morphologie du nuage” et la répartition des points sur chacun de ces axes d’inertie permettent alors, de rendre lisible et hiérarchisée l’information contenue dans le tableau.
Mathématiquement, après avoir centré et réduit le tableau de données et que l’on a affecté d’un système de masse (par exemple, les sommes marginales de chaque ligne), on calcule la matrice d’inertie associée et on la diagonalise (la répartition de l’information selon les différents axes est représentée par l’histogramme des valeurs propres). On effectue alors un changement de base selon ses vecteurs propres, c’est-à-dire selon les axes principaux d’inertie du nuage de points. On projette alors les points figurant chaque ligne sur les nouveaux axes. L’ensemble de l’information est conservée, mais celle-ci est maintenant hiérarchisée, axe d’inertie par axe d’inertie.
L’histogramme des valeurs propres permet de voir le type de répartition de l’information entre les différents axes et l’étendue en dimension de celle-ci.
Le premier axe d’inertie oppose les points, c’est-à-dire les lignes du tableau ayant les plus grandes distances ou “différences”. La première valeur propre d’inertie, (associée à ce premier axe) mesure la quantité d’information présente le long de cet axe, c’est-à-dire dans cette opposition.
Plusieurs méthodes d’analyse des correspondances existent, qui diffèrent par le type de représentation de l’information, c’est-à-dire de métrique, ou de système de masse qu’elles utilisent.
Le but de l’AFC est de mettre en évidence les relations de dépendance ou d’indépendance de deux modalités étudiés et mesurer à l’aide du χ² ; d’une part la ressemblance entre profils lignes et d’autre part la ressemblance entre profilscolonnes.
Le χ² permet de mesurer l’intensité de la liaison entre les deux nuages de variables.
I.2.1 Distance entre les profils, Métrique du χ²
Chaque ligne du tableau des fréquences lignes peut être vue comme la liste des coordonnées d’un point dans un espace à q dimensions. On obtient ainsi le nuage des individuslignes.
On définit de même le nuage des individus-colonnes à partir du tableau des fréquences colonnes. Comme en ACP, on s’intéresse alors aux directions de “plus grande dispersion” de chacun de ces nuages de points. Mais, pour mesurer la “distance” entre deux individus, on utilise la Métrique du χ². La distance du χ² entre la ligne i et la ligne i’ est ainsi définie par :
La ressemblance entre le profil colonne j et le profil colonne 1 est mesuré par :
Page suivante : Chapitre II : MESURE ET ANALYSE MULTI-VARIEE DE LA PAUVRETE