silico.biotoul.fr
 

M1 Traitement de Donnees Biologiques - Rice Expression Atlas Guided Tour

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
m (Created page with '= Préparation de l'environnement = Au cours de ce TP, vous allez travailler sur un jeu de données d'expression du génome du riz dans différents tissus et organes au cours du…')
m (Préparation de l'environnement)
Line 11: Line 11:
* [[silico:enseignement/m1/tdb/rice/rice.atlas.expr.normalized.tsv|rice.atlas.expr.normalized.tsv]] : les données d'expression normalisées de 57k probesets dans 98 microarrays.
* [[silico:enseignement/m1/tdb/rice/rice.atlas.expr.normalized.tsv|rice.atlas.expr.normalized.tsv]] : les données d'expression normalisées de 57k probesets dans 98 microarrays.
* [[silico:enseignement/m1/tdb/rice/rice.atlas.info.tsv|rice.atlas.info.tsv]] : des informations supplémentaires sur chacune des hybridations.
* [[silico:enseignement/m1/tdb/rice/rice.atlas.info.tsv|rice.atlas.info.tsv]] : des informations supplémentaires sur chacune des hybridations.
 +
 +
= Contexte =
 +
 +
Dans ce TP, nous allons analyser les données de transciptome obtenues sur ''Oryza sativa'' par microarray. Le déroulement des analyses suit les travaux de Fujita ''et al.'' publiés en 2010 ([[pmid:21062870]]). Ces données sont publiques et ont été mises à disposition sur la banque [https://www.ncbi.nlm.nih.gov/geo/ GEO] et sont accessibles avec l'identifiant [https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE14304 GSE14304]. Il s'agit de 98 hybridations réalisées avec un microarray de la société Affymetrix ayant l'identifiant [https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL2025 GPL2025] comportant 57 381 spots (ou ''probesets'') correspondant à 51 279 transcrits d'''Oryza sativa'' japonica et indica.
 +
 +
Pour réaliser ce TP, les données brutes ont été prétraitées afin d'obtenir pour chaque probeset une valeur d'expression normalisée (= comparable entre une hybridation et une autre). Le traitement effectué suit les étapes décrites dans le paragraphe ''Microarray data extraction, processing and cluster analysis'' de la partie ''Materials and Methods'' :
 +
 +
: "<i>For Affymetrix array data, CEL files produced by GCOS 1.3 (Affymetrix, Inc.) were analyzed using the statistical software R with bioconductor package ‘affy’. Signal intensities were extracted by expresso algorithm with parameters: bgcorrect.method = ‘mas’, normalize = ‘F’, pmcorrect.method = ‘pmonly’, summary.method = ‘mas’. Extracted signal intensities were introduced into GeneSpring 7.3.1 (Agilent Technologies, Inc.) and scaled to the 75th percentile per chip.</i>"
 +
 +
Les objectifs de ce TP sont multiples et vont être :
 +
* Prise en main des librairies et fonctions nécessaires,
 +
* Déterminer si les résultats sont reproductibles : '''ACP''' sur les 98 conditions expérimentales → est-ce que les réplicats se regroupent ?
 +
* Réaliser une '''analyse d'expression différentielle''' afin de déterminer les gènes différentiellement exprimés dans une des conditions expérimentales
 +
* Faire une '''analyse de clustering''' sur les profils d'expression de ces gènes et visualiser le résultat
 +
* '''Caractériser la liste des gènes''' sur-exprimés dans la condition expérimentale étudiée

Revision as of 07:10, 28 September 2022

Préparation de l'environnement

Au cours de ce TP, vous allez travailler sur un jeu de données d'expression du génome du riz dans différents tissus et organes au cours du développement. Il s'agit de données obtenues par hybridation sur des microarrays pour chacun des 57k probesets présents sur le microarray.

Il s'agit pour commencer de créer l'environnement de travail.

Créez tout d'abord un répertoire de travail sur le bureau (par exemple TDB-TP5) et commencez par télécharger le fichier source que vous allez utiliser et compléter pour générer le compte rendu de TP : M1.TDB.TP_Rice_Expression_Atlas.Rmd (click droit de la souris -- enregistrer la cible sous...). Ouvrez le logiciel RStudio et chargez ce fichier puis lancez sa compilation pour voir le compte rendu. Pour cela cliquez sur le bouton Knit HTML ou bien utilisez la combinaison de touches Ctrl + shift + K.


Récupération des données. Il s'agit ensuite de récupérer les fichiers de données. Téléchargez les fichiers suivant dans votre répertoire de travail :

Contexte

Dans ce TP, nous allons analyser les données de transciptome obtenues sur Oryza sativa par microarray. Le déroulement des analyses suit les travaux de Fujita et al. publiés en 2010 (pmid:21062870). Ces données sont publiques et ont été mises à disposition sur la banque GEO et sont accessibles avec l'identifiant GSE14304. Il s'agit de 98 hybridations réalisées avec un microarray de la société Affymetrix ayant l'identifiant GPL2025 comportant 57 381 spots (ou probesets) correspondant à 51 279 transcrits d'Oryza sativa japonica et indica.

Pour réaliser ce TP, les données brutes ont été prétraitées afin d'obtenir pour chaque probeset une valeur d'expression normalisée (= comparable entre une hybridation et une autre). Le traitement effectué suit les étapes décrites dans le paragraphe Microarray data extraction, processing and cluster analysis de la partie Materials and Methods :

"For Affymetrix array data, CEL files produced by GCOS 1.3 (Affymetrix, Inc.) were analyzed using the statistical software R with bioconductor package ‘affy’. Signal intensities were extracted by expresso algorithm with parameters: bgcorrect.method = ‘mas’, normalize = ‘F’, pmcorrect.method = ‘pmonly’, summary.method = ‘mas’. Extracted signal intensities were introduced into GeneSpring 7.3.1 (Agilent Technologies, Inc.) and scaled to the 75th percentile per chip."

Les objectifs de ce TP sont multiples et vont être :

  • Prise en main des librairies et fonctions nécessaires,
  • Déterminer si les résultats sont reproductibles : ACP sur les 98 conditions expérimentales → est-ce que les réplicats se regroupent ?
  • Réaliser une analyse d'expression différentielle afin de déterminer les gènes différentiellement exprimés dans une des conditions expérimentales
  • Faire une analyse de clustering sur les profils d'expression de ces gènes et visualiser le résultat
  • Caractériser la liste des gènes sur-exprimés dans la condition expérimentale étudiée