L2-L3 Bioinfo - TP Analyses statistiques des données (phénotypes,génotypes)
From silico.biotoul.fr
Contents |
Analyses statistiques des données (phénotypes,génotypes)
Lors du TP précédent, vous avez manipulé une base de données comportant différentes sources d'informations concernant les lignées d'Arabettes analysées en traitement d'images. Dans le cadre du présent TP, vous allez analyser le tableau de données généré à partir de la base de donnée, avec le logiciel d'analyses statistiques R.
Créer un répertoire de travail sur le bureau (par exemple TP2) et téléchargez le fichier de données données TP3 (click droit de la souris -- enregistrer la cible sous...). . Ouvrez le logiciel R, changez le répertoire courant vers le répertoire contenant le fichier de données.
Lecture et exploration du tableau de données
Lecture:
arabido=read.table("data_TP3.txt", sep="\t", header=TRUE)
Accéder directement aux variables simplement en donnant leurs noms:
attach(arabido) names(arabido)
Quel est la taille du fichier ? Utilisez la fonction dim(). Combien y-a-t-il de variables ? Repérez les variables quantitatives (numériques) et les variables qualitatives ("facteurs")?
Graphiques
- Réalisez un graphique permettant de visualiser la corrélation entre la surface des feuilles et le nombre de racines latérales. - Réalisez un graphique permettant de visualiser la corrélation entre la surface des feuilles et la longitude; de même avec la latitude. - Réalisez un graphique permettant de visualiser l'effet de la présence/absence naturelle de la bactérie dans le pays d'origine des plantes, sur la surface foliaire. Utilisez les commandes plot() [exemple plot(x,y)] et boxplot [exemple boxplot(y~x)] pour réaliser ces graphiques.
Que remarquez vous?
Calculs de corrélation
- calculez 2 à 2 le coefficient de corrélation entre la surface des feuilles, le nombre de racines latérales, la latitude, la longitude. Que remarquez vous?
es corrélations entre les variables numériques. Utilisez la commande plot() [exemple plot(x,y)].
Réalisez des graphiques permettant de visualiser les corrélations entre les variables numériques. Utilisez la commande plot() [exemple plot(x,y)].
Faire un graphique:
plot(Genome_size,ORF_number,pch=16)
Quantifier la relation entre ces 2 variables:
- covariance
cov(Genome_size,ORF_number)
- coefficient de corrélation r de Pearson
cor(Genome_size,ORF_number)
Régression
Calculer une fonction linéaire qui relie les 2 variables, avec la commande lm() :
lm(ORF_number ~ Genome_size) # remarque: c'est une régression de "y" sur "x", d'où lm(y~x)
Gardons en mémoire le résultat de la régression:
reglin=lm(ORF_number ~ Genome_size)
On peut vérifier la significativité des coefficients de la droite avec:
summary(reglin)
Quelle est l'équation de la droite de régression ?
Calculez le coefficient de détermination R2 (% de variance expliquée par le modèle linéaire ==> bien si > 70%):
cor(Genome_size,ORF_number)^2 #(stocké aussi dans summary(reglin))
Représenter le nuage de points avec la droite de régression:
plot(Genome_size,ORF_number,pch=16) abline(reglin,col="red",lwd=2)
Ajoutez ces parties à votre compte rendu.
Liens
- Site de R : http://www.r-project.org et sites miroirs (dont ceux en France) pour télécharger le logiciel et les librairies : https://cran.r-project.org/mirrors.html
- RStudio : https://www.rstudio.com
- Utilisation de R depuis un navigateur : http://www.r-fiddle.org
Chargement des données avec l'adresse des fichiers
genomes=read.table("http://silico.biotoul.fr/site/images/d/de/Bacterial_genomes.txt", sep="\t", header=TRUE) sequoia=read.table("http://silico.biotoul.fr/site/images/e/e1/Sequoia.txt", sep="\t", header=TRUE) tomates=read.table("http://silico.biotoul.fr/site/images/3/3d/Tomates_cerises.txt", sep="\t", header=TRUE)