silico.biotoul.fr
 

M1 BBS ACP

From silico.biotoul.fr

Revision as of 11:11, 6 October 2016 by Barriot (Talk | contribs)
(diff) ← Older revision | Current revision (diff) | Newer revision → (diff)
Jump to: navigation, search

Analyse en composantes principales

Objectif : Réduire le nombre de dimensions de l'espace d'observation = obtenir une projection en perdant un minimum d'informations.

Applications :

  • grand nombre de variables que l'on cherche à visualiser en 2 à 3 dimensions
  • dessin de graphes


ici schéma changement de repère (2 dimensions)


\Rightarrow Principe : trouver les axes sur lesquels on a un maximum de dispersion = plus de représentativité / moins de perte d'informations

Choix de l'origine

Prendre le centre de gravité du nuage.

Données :

  • u \rightarrow individus \rightarrowpoints dans l'espace à p dimensions.
  • v \rightarrow variables

X = \begin{matrix}
u_1  \\
u_2 \\
\vdots \\
u_n \end{matrix}
\overset{ \begin{matrix}\\v_1 & v_2 & \cdots & v_p \end{matrix}}
{
 \begin{bmatrix}
 x_{1,1} & x_{1,2} & \cdots & x_{1,p} \\
 x_{2,1} & x_{2,2} & \cdots & x_{2,p} \\
 \vdots & \vdots & \ddots & \vdots \\
 x_{n,1} & x_{n,2} & \cdots & x_{n,p} \end{bmatrix} 
}


Centre de gravité :


G = \begin{pmatrix}
\frac{1}{n} \Sigma^n_{i=1}x_{i1} \\
\frac{1}{n} \Sigma^n_{i=1}x_{i2} \\
\vdots \\
\frac{1}{n} \Sigma^n_{i=1}x_{ip}
\end{pmatrix}
= \begin{pmatrix}
x_{\bullet 1} \\
x_{\bullet 2} \\
\vdots \\
x_{\bullet p}
\end{pmatrix}


On prendra G comme nouvelle origine.

\rightarrow données centrées


X_c = \begin{matrix}
u_{c1}  \\
u_{c2} \\
\vdots \\
u_{cn} \end{matrix}
\begin{bmatrix}
 x_{1,1} - x_{\bullet 1} & x_{1,2} - x_{\bullet 2} & \cdots & x_{1,p} - x_{\bullet p} \\
 x_{2,1} - x_{\bullet 1} & x_{2,2} - x_{\bullet 2} & \cdots & x_{2,p} - x_{\bullet p}  \\
 \vdots & \vdots & \ddots & \vdots \\
 x_{n,1} - x_{\bullet 1} & x_{n,2} - x_{\bullet 2} & \cdots & x_{n,p} - x_{\bullet p}  
\end{bmatrix}