silico.biotoul.fr
 

M1 Traitement de Donnees Biologiques - Rice Expression Atlas Guided Tour

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
m (Préparation de l'environnement)
m (Contexte)
Line 26: Line 26:
* Faire une '''analyse de clustering''' sur les profils d'expression de ces gènes et visualiser le résultat
* Faire une '''analyse de clustering''' sur les profils d'expression de ces gènes et visualiser le résultat
* '''Caractériser la liste des gènes''' sur-exprimés dans la condition expérimentale étudiée
* '''Caractériser la liste des gènes''' sur-exprimés dans la condition expérimentale étudiée
 +
 +
= Librairies <tt>tidyverse</tt/> =
 +
 +
Pour ce TP, vous allez commencer à utiliser un ensemble de librairies de plus en plus utilisées en traitement de données (et ''data science''). Les 2 principaux avantages sont que :
 +
* il y a énormément de documentation en ligne, dans différentes langues, sous forme de tutoriels, de forums, ..., notamment stackoverflow, et que même si la prise en main peut-être un peu ardue au tout début, il y a, le plus généralement, quand on cherche à faire un traitement, quelqu'un qui a eu les mêmes problèmes et donc, la solution disponible mais à adapter à votre jeu de données,
 +
* le code gagne en lisibilité, et donc plus facile à reprendre, améliorer et maintenir.
 +
 +
Pour ce TP, nous allons utiliser
 +
* la lecture de fichier,
 +
* les <tt>tibbles</tt> : un data.frame amélioré,
 +
* un opérateur particulier : le ''pipe'' <tt>%>%</tt> qui permet plus de lisibilité dans l’enchaînement des traitements effectué, le résultat d'une fonction étant passé à la fonction suivante,
 +
* les fonctions graphiques améliorés de la librairie <tt>ggplot2</tt>.
 +
 +
Les fichiers fournis sont au format TSV, c'est-à-dire que la 1ère ligne contient le nom des colonnes, et les colonnes sont séparées par des tabulations. Chargez le fichier contenant les informations relatives aux 98 hybridations, et affichez le contenu comme suit :
 +
<source lang='rsplus'>
 +
info = read_tsv("rice.atlas.info.tsv")
 +
info
 +
</source>

Revision as of 08:19, 28 September 2022

Préparation de l'environnement

Au cours de ce TP, vous allez travailler sur un jeu de données d'expression du génome du riz dans différents tissus et organes au cours du développement. Il s'agit de données obtenues par hybridation sur des microarrays pour chacun des 57k probesets présents sur le microarray.

Il s'agit pour commencer de créer l'environnement de travail.

Créez tout d'abord un répertoire de travail sur le bureau (par exemple TDB-TP5) et commencez par télécharger le fichier source que vous allez utiliser et compléter pour générer le compte rendu de TP : M1.TDB.TP_Rice_Expression_Atlas.Rmd (click droit de la souris -- enregistrer la cible sous...). Ouvrez le logiciel RStudio et chargez ce fichier puis lancez sa compilation pour voir le compte rendu. Pour cela cliquez sur le bouton Knit HTML ou bien utilisez la combinaison de touches Ctrl + shift + K.


Récupération des données. Il s'agit ensuite de récupérer les fichiers de données. Téléchargez les fichiers suivant dans votre répertoire de travail :

Contexte

Dans ce TP, nous allons analyser les données de transciptome obtenues sur Oryza sativa par microarray. Le déroulement des analyses suit les travaux de Fujita et al. publiés en 2010 (pmid:21062870). Ces données sont publiques et ont été mises à disposition sur la banque GEO et sont accessibles avec l'identifiant GSE14304. Il s'agit de 98 hybridations réalisées avec un microarray de la société Affymetrix ayant l'identifiant GPL2025 comportant 57 381 spots (ou probesets) correspondant à 51 279 transcrits d'Oryza sativa japonica et indica.

Pour réaliser ce TP, les données brutes ont été prétraitées afin d'obtenir pour chaque probeset une valeur d'expression normalisée (= comparable entre une hybridation et une autre). Le traitement effectué suit les étapes décrites dans le paragraphe Microarray data extraction, processing and cluster analysis de la partie Materials and Methods :

"For Affymetrix array data, CEL files produced by GCOS 1.3 (Affymetrix, Inc.) were analyzed using the statistical software R with bioconductor package ‘affy’. Signal intensities were extracted by expresso algorithm with parameters: bgcorrect.method = ‘mas’, normalize = ‘F’, pmcorrect.method = ‘pmonly’, summary.method = ‘mas’. Extracted signal intensities were introduced into GeneSpring 7.3.1 (Agilent Technologies, Inc.) and scaled to the 75th percentile per chip."

Les objectifs de ce TP sont multiples et vont être :

  • Prise en main des librairies et fonctions nécessaires,
  • Déterminer si les résultats sont reproductibles : ACP sur les 98 conditions expérimentales → est-ce que les réplicats se regroupent ?
  • Réaliser une analyse d'expression différentielle afin de déterminer les gènes différentiellement exprimés dans une des conditions expérimentales
  • Faire une analyse de clustering sur les profils d'expression de ces gènes et visualiser le résultat
  • Caractériser la liste des gènes sur-exprimés dans la condition expérimentale étudiée

Librairies tidyverse

Pour ce TP, vous allez commencer à utiliser un ensemble de librairies de plus en plus utilisées en traitement de données (et data science). Les 2 principaux avantages sont que :

  • il y a énormément de documentation en ligne, dans différentes langues, sous forme de tutoriels, de forums, ..., notamment stackoverflow, et que même si la prise en main peut-être un peu ardue au tout début, il y a, le plus généralement, quand on cherche à faire un traitement, quelqu'un qui a eu les mêmes problèmes et donc, la solution disponible mais à adapter à votre jeu de données,
  • le code gagne en lisibilité, et donc plus facile à reprendre, améliorer et maintenir.

Pour ce TP, nous allons utiliser

  • la lecture de fichier,
  • les tibbles : un data.frame amélioré,
  • un opérateur particulier : le pipe %>% qui permet plus de lisibilité dans l’enchaînement des traitements effectué, le résultat d'une fonction étant passé à la fonction suivante,
  • les fonctions graphiques améliorés de la librairie ggplot2.

Les fichiers fournis sont au format TSV, c'est-à-dire que la 1ère ligne contient le nom des colonnes, et les colonnes sont séparées par des tabulations. Chargez le fichier contenant les informations relatives aux 98 hybridations, et affichez le contenu comme suit :

info = read_tsv("rice.atlas.info.tsv")
info