silico.biotoul.fr
 

M1 BBS ACP

From silico.biotoul.fr

Revision as of 15:42, 6 October 2016 by Barriot (Talk | contribs)
Jump to: navigation, search

Contents

Analyse en composantes principales

Objectif : Réduire le nombre de dimensions de l'espace d'observation = obtenir une projection en perdant un minimum d'informations.

Applications :

  • grand nombre de variables que l'on cherche à visualiser en 2 à 3 dimensions
  • dessin de graphes


ici schéma changement de repère (2 dimensions)


\Rightarrow Principe : trouver les axes sur lesquels on a un maximum de dispersion = plus de représentativité / moins de perte d'informations

Choix de l'origine

Prendre le centre de gravité du nuage.

Données :

  • u \rightarrow individus \rightarrowpoints dans l'espace à p dimensions.
  • v \rightarrow variables

X = \begin{matrix}
u_1  \\
u_2 \\
\vdots \\
u_n \end{matrix}
\overset{ \begin{matrix}\\v_1 & v_2 & \cdots & v_p \end{matrix}}
{
 \begin{bmatrix}
 x_{1,1} & x_{1,2} & \cdots & x_{1,p} \\
 x_{2,1} & x_{2,2} & \cdots & x_{2,p} \\
 \vdots & \vdots & \ddots & \vdots \\
 x_{n,1} & x_{n,2} & \cdots & x_{n,p} \end{bmatrix} 
}


Centre de gravité : \Sigma^n_{i=1} p_i \overrightarrow{Gu_i} = \overrightarrow{0} avec pi le poids de chaque dimension



G = \begin{pmatrix}
\frac{1}{n} \sum_{i=1}^n x_{i1} \\
\frac{1}{n} \sum_{i=1}^n x_{i2} \\
\vdots \\
\frac{1}{n} \sum_{i=1}^n x_{ip}
\end{pmatrix}
= \begin{pmatrix}
x_{\bullet 1} \\
x_{\bullet 2} \\
\vdots \\
x_{\bullet p}
\end{pmatrix}


On prendra G comme nouvelle origine.

\rightarrow données centrées


X_c = \begin{matrix}
u_{c1}  \\
u_{c2} \\
\vdots \\
u_{cn} \end{matrix}
\begin{bmatrix}
 x_{1,1} - x_{\bullet 1} & x_{1,2} - x_{\bullet 2} & \cdots & x_{1,p} - x_{\bullet p} \\
 x_{2,1} - x_{\bullet 1} & x_{2,2} - x_{\bullet 2} & \cdots & x_{2,p} - x_{\bullet p}  \\
 \vdots & \vdots & \ddots & \vdots \\
 x_{n,1} - x_{\bullet 1} & x_{n,2} - x_{\bullet 2} & \cdots & x_{n,p} - x_{\bullet p}  
\end{bmatrix}

Mesure de dispersion = Inertie

Inertie par rapport à un point (le centre de gravité)

I_G = \frac{1}{n} \sum_{i=1}^n d^2(G, u_i) = \frac{1}{n}\sum_{i=1}^n \sum_{j=1}^p (x_{ij} - x_{\bullet j})^2
= \sum_{j=1}^p \frac{1}{n}\sum_{i=1}^n (x_{ij} - x_{\bullet j})^2

avec \frac{1}{n}\sum_{i=1}^n (x_{ij} - x_{\bullet j})^2 = Var(v_j)

on a I_G = \sum_{j=1}^p  Var(v_j)

\Rightarrow L'inertie par rapport au centre de gravité revient à la somme des variances de chaque variable

Inertie par rapport à un axe

I_\Delta = \frac{1}{n}\sum_{i=1}^n d^2(h_{\Delta i}, u_i)

\rightarrow mesure la proximité du nuage des individus à l'axe.

ici figure

Inertie par rapport à un sous-espace vectoriel

I_V = \frac{1}{n} \sum_{i=1}^n d^2(h_{Vi}, u_i) C'est pareil.