silico.biotoul.fr
 

M1 MABS BBS Data Mining Projet

From silico.biotoul.fr

Jump to: navigation, search

Contents

Avant propos

Le projet est à réaliser par groupe de 3 ou 4 étudiants et à remettre avant les fêtes de fin d'années.

Il est possible de proposer un autre projet. Dans ce cas, prendre contact avec M. Barriot pour le présenter et valider les objectifs du projet proposé.

Prédiction des opérons chez Escherichia coli K-12

Contexte

Les opérons interviennent dans la régulation de l'expression des gènes chez les bactéries. Ils comprennent des gènes structuraux et des éléments de contrôle dans l'ADN, reconnus par des produits de gènes régulateurs. La connaissance des gènes appartenant à un même opéron est donc une étape importante dans la compréhension du fonctionnement des organismes. La disponibilité de génomes complets et l'accumulation de données et de connaissances sur un certain nombre d'organismes permettent la mise en oeuvre de méthodes pour la prédiction de l'appartenance des gènes à un même opéron.

Travail à réaliser

Ce projet de fouille de données va impliquer toutes les étapes couramment rencontrées :

  • identification, téléchargement, sélection, nettoyage et intégration des données,
  • choix d'une méthode de data mining,
  • extraction des patterns,
  • analyse des connaissances extraites.

L'organisme (plus exactement la souche) choisi(e) est Escherichia coli K-12. Le but est de mettre au point un classificateur qui va permettre de prédire les opérons chez cette souche avec le plus de précision possible.

Dans un premier temps, il va falloir sélectionner sur quels attributs baser les prédictions. D'après la littérature, il semble que la distance intergénique, le brin, la direction de la transcription, l'appartenance à une même classe fonctionnelle, ou encore la conservation de la localisation des gènes entre différentes espèces, soient des bons indicateurs.

Une fois les attributs sélectionnés, il va s'agir de récupérer les données. Diverses sources pour cela, la fiche EMBL, EcoCyc, GenoList, RegulonDB, etc. Dans le cas de différentes sources utilisant différents identifiants de gènes, il faudra préparer et nettoyer les données afin de faire correspondre les identifiants.

Ensuite, vient la fouille de données à proprement parler. Les méthodes possibles seront par exemple l'utilisation d'un classificateur Bayésien ou d'arbres de décision. Afin de construire le modèle d'un opéron et de tester sa précision, vous aurez besoin d'un jeu d'apprentissage (et d'un jeu de test). Pour cela, vous pourrez utiliser les données disponibles sur RegulonDB. Ces données vous permettront éventuellement d'effectuer des validations croisées afin de déterminer la méthode ou les paramètres donnant les meilleures performances. Et ensuite, vous pourrez effectuer les prédictions sur le reste du génome et calculer les performances effectives.

Rapport de projet

Le rapport de projet doit contenir les points suivants :

  • Choix, analyse. Choix de la méthode de fouille de données, des attributs sélectionnés pour la fouille.
  • Description des données. Données sources utilisées. Transformations effectuées.
  • Réalisation. Classificateur élaboré et éventuellement paramètres.
  • Résultats obtenus. Synthèse des résultats obtenus, analyse des résultats et connaissances extraites. Prédictions effectuées et précision du modèle (faux négatifs, etc.).
  • Bilan et perspectives. Conclusion et perspectives. Difficultés rencontrées, suggestions sur d'autres approches, d'autres hypothèses à formuler.
  • Répartition des tâches. Description de la part de l'apport de chacun des membres du groupe au projet : bien que chacun devrait participer à toutes les étapes, ce projet peut se décomposer en sous-étapes dont chacune réalisée plus particulièrement par l'un des membres du groupe.


Commentaire

Pour réaliser ce projet, toute initiative est bienvenue. Il s'agit d'utiliser au maximum les données et méthodes dont on dispose, vous êtes donc entièrement libres de combiner des approches, utiliser des connaissances a priori, etc. La tâche de nettoyage des données est une tâche lourde et qui peut être réalisée en parallèle par chacun des groupes à partir de sources différentes afin de mutualiser les données obtenues. Cela permettrait notamment de comparer les performances des classificateurs obtenus par chacun des groupes sur chacun des jeux d'apprentissage et test construits.


Références

  • H. Salgado, G. Moreno-Hagelsieb, T. Smith and J. Collado-Vides. Operons in Escherichia coli: Genomic analyses and predictions. PNAS 2000.
  • B. Westover, J. Buhler, J. Gordon and J. Sonnenburg. Blind operon finding in genomes with insufficiant training data.
  • M. Ermolaeva, O. White and S. Salzberg. Prediction of operons in microbial genomes. NAR 2001.
  • G. Moreno-Hagelsieb and J. Collado-Vides. A powerfull method for the prediction of operons in prokaryotes. Bioinformatics 2002.