silico.biotoul.fr
 

Interrogation des banques de données

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
(Exercice 1 : Recherche dans les banques via l'utilisation de mots clés)
 
(25 intermediate revisions not shown)
Line 12: Line 12:
== Exercice 1 : Recherche dans les banques via l'utilisation de mots clés ==
== Exercice 1 : Recherche dans les banques via l'utilisation de mots clés ==
-
Deux outils pour la recherche de Séquences
+
Nous allons utiliser le moteur de recherche du NCBI nommé 'ENTREZ'
-
* '''SRS''' (Sequence Retrieval System): sur le site EBI Databases~Databases Browsing~SRS
+
 
 +
<!--
 +
Deux outils principaux existent pour la recherche de Séquences
 +
* '''SRS''' (Sequence Retrieval System): sur le site EBI (Databases~Databases Browsing~SRS)
* '''Entrez''' : sur le site du NCBI entrer directement la recherche dans la boite de recherche en haut de page
* '''Entrez''' : sur le site du NCBI entrer directement la recherche dans la boite de recherche en haut de page
''NB: Lorsque plusieurs termes sont recherchés, il est possible de les combiner à l'aide des opérateurs booléens (AND, OR, NOT)''
''NB: Lorsque plusieurs termes sont recherchés, il est possible de les combiner à l'aide des opérateurs booléens (AND, OR, NOT)''
-
 
+
-->
-
'''1°)''' Sur le serveur du NCBI, <u>identifiez</u>:
+
'''Sur le serveur du NCBI, <u>identifiez</u>: '''
* toutes les séquences de l'oomycète ''Phytophthora'' (parasite de la pomme de terre), combien sont-elles ?   
* toutes les séquences de l'oomycète ''Phytophthora'' (parasite de la pomme de terre), combien sont-elles ?   
-
* les séquences protéiques de ''Phytophthora parasitica'' correspondant à des éliciteurs (molécules capables d'induire les réponses immunitaires chez les végétaux).
+
* les séquences protéiques de ''Phytophthora parasitica'' pouvant interagir avec la cellulose
-
Pour cela sur le site du NCBI sélectionnez les banques "protéines", puis l'option '''''Advanced search''''' et le bouton '''Preview''', en précisant les champs, Organism, Title... à l'aide de l'outil '''Search builder''' et conjuguer vos requêtes. L'historique de vos requêtes est disponible dans la section ''History''.
+
Pour cela sur le site du NCBI sélectionnez les banques "protéines", puis dans la barre de requête il est possible de combiner plusieurs termes à l'aide des opérateurs booléens (AND, OR, NOT)
 +
puis l'option '''''Advanced''''' (sous la barre de requête) et le bouton '''Preview''', en précisant les champs, Organism, Title... à l'aide de l'outil '''Search builder''' et conjuguer vos requêtes. L'historique de vos requêtes est visible.
 +
<!--
''NB : L'utilisation de * permet de chercher une famille de mots. Par exemple, avec elicit*, vous pourrez trouver elicitor, elicitate, elicitin...''
''NB : L'utilisation de * permet de chercher une famille de mots. Par exemple, avec elicit*, vous pourrez trouver elicitor, elicitate, elicitin...''
-
 
+
-->
Vous pouvez également aller directement sur la page d'accueil du moteur de recherche ENTREZ du NCBI (http://www.ncbi.nlm.nih.gov/Entrez/) et réaliser votre requête.
Vous pouvez également aller directement sur la page d'accueil du moteur de recherche ENTREZ du NCBI (http://www.ncbi.nlm.nih.gov/Entrez/) et réaliser votre requête.
 +
<u>On s'intéresse maintenant à la séquence dont le numéro d'accession est '''CAA65843'''</u>
<u>On s'intéresse maintenant à la séquence dont le numéro d'accession est '''CAA65843'''</u>
Regardez la fiche de la séquence correspondante :
Regardez la fiche de la séquence correspondante :
-
* comment s'organise cette fiche ?  
+
* comment s'organise cette fiche ? (format GenPept)
* quel est le nom de cette protéine ?
* quel est le nom de cette protéine ?
 +
* quel le nombre d'acides aminés constituant cette protéine ?
* dans quel journal scientifique les travaux concernant cette protéine ont-ils été publiés ?
* dans quel journal scientifique les travaux concernant cette protéine ont-ils été publiés ?
* sous quel numéro cette publication est-elle référencée dans PubMed ?
* sous quel numéro cette publication est-elle référencée dans PubMed ?
-
* de combien d'acides aminés est composée cette protéine ?
+
* cette protéine est-elle sécrétée ? (adressée dans la paroi du microorganisme et/ou sécrété dans milieu extérieur)
-
* cette protéine est-elle sécrétée ?
+
 
<u>On s'intéresse maintenant aux références croisées, notées "db_xref" sur la fiche</u>
<u>On s'intéresse maintenant aux références croisées, notées "db_xref" sur la fiche</u>
-
* à quoi correspondent ces différentes références croisées ?
+
* à quoi correspondent les différents liens croisées :
-
* quels domaines sont présent dans la protéine ?
+
 
 +
- db_xref="InterPro:IPR000177"
 +
- db_xref="GOA:O42830"
 +
- db_xref="UniProtKB/TrEMBL:O42830
 +
 
 +
* quels domaines protéiques sont présent dans la protéine ?
* quel est la fonction du domaine "IPR00254" ? est-il spécifique des oomycètes/champignons ou tout autre espèce ?
* quel est la fonction du domaine "IPR00254" ? est-il spécifique des oomycètes/champignons ou tout autre espèce ?
* ce domaine est-il référencé dans d'autres banques de domaine ? Si oui, lesquelles et sous quelle nomenclature ?
* ce domaine est-il référencé dans d'autres banques de domaine ? Si oui, lesquelles et sous quelle nomenclature ?
 +
<!--
'''2°)''' Sur le serveur de l'EBI, trouvez '''SRS'''
'''2°)''' Sur le serveur de l'EBI, trouvez '''SRS'''
Line 50: Line 63:
* en utilisant Quick Search, les séquences PROTEIQUES de Phytophthora
* en utilisant Quick Search, les séquences PROTEIQUES de Phytophthora
* en utilisant les onglets de SRS (Library Page puis Query Form puis Results), les séquences de Phytophthora parasitica codant des éliciteurs présentant une activité lectine, contenues dans la banque Uniprot/TrEMBL uniquement
* en utilisant les onglets de SRS (Library Page puis Query Form puis Results), les séquences de Phytophthora parasitica codant des éliciteurs présentant une activité lectine, contenues dans la banque Uniprot/TrEMBL uniquement
 +
-->
<u>On s'intéresse maintenant à O42830</u>
<u>On s'intéresse maintenant à O42830</u>
-
* ouvrir la fiche TrEMBL de O42830 (Colonne Accession). Que constatez-vous par rapport à la fiche GenPept ?
+
* ouvrir la fiche TrEMBL de O42830. Que constatez-vous par rapport à la fiche GenPept ?
-
* à quoi correspond le lien GO:0030248 ?
+
* quel est le numero d'accession de l'ARNm correspondant ?
-
 
+
== Exercice 2 : Recherche dans les banques via l'utilisation d'une séquence connue ==
== Exercice 2 : Recherche dans les banques via l'utilisation d'une séquence connue ==
-
'''1°)''' Récupérez la séquence P07987  
+
Récupérez la séquence P07987  
 +
 
* de quelle type de séquence s'agit-il ?
* de quelle type de séquence s'agit-il ?
* à quel organisme appartient-elle ?
* à quel organisme appartient-elle ?
* quelle est la fonction de P07987  ?
* quelle est la fonction de P07987  ?
* dans quelle banque cette séquence est-elle déposée ?
* dans quelle banque cette séquence est-elle déposée ?
-
* quel est le numéro d'accession de l'ARN correspondant ?
+
* afficher la séquence au format fasta
-
 
+
* cette séquence présente-t-elle des homologues ?
-
'''2°)''' Récupérez dans la banque de structure PDB la structure correspondant à P07987
+
* indiquez les positions du domaine CBM1 (utiliser la fiche Uniprot
-
* combien de structure protéique ont été obtenues par RMN ? par rayons X ?
+
* la structure 3D de cette protéine est elle connue, si oui quel est le numero d'accession de cette structure ?
-
* quel est le numéro d'accession de cette structure ?
+
-
* ouvrir la structure 3CBH dans JMol, utilisez les differents outils (rotation, couleur..)
+
-
 
+
== Exercice 3 : Interrogation de banques spécialisées par utilisation de mots clés ou séquences connues ==
== Exercice 3 : Interrogation de banques spécialisées par utilisation de mots clés ou séquences connues ==
Line 80: Line 91:
* afficher au format FASTA l'ensemble des endoglucanases de M. grisea
* afficher au format FASTA l'ensemble des endoglucanases de M. grisea
-
'''2°)''' Allez sur le site du [http://www.jcvi.org/ JCVI]
+
'''2°)''' Allez sur le site du [https://www.broadinstitute.org/ Broad Institute]
-
* qu'est-ce que le JCVI ?
+
* qu'est-ce que le Broad Institute ?
-
* quelles banques de séquences concernant les végétaux sont hébergées au JCVI ?
+
* existe-t-il des données sur le champignon Colletotrichum graminicola ?
-
* identifiez les séquences de riz codant des glycosyl hydrolases ?
+
* combien de gènes modèles ont été détectés chez C. higginsianum IMI 349063
 +
* combien de gènes codant le facteur de transcription 'ste12' est détecté dans le génome de C. graminicola ?  
== Exercice 4 : Recherche dans les banques de "connaissances" ==
== Exercice 4 : Recherche dans les banques de "connaissances" ==
Line 104: Line 116:
* combien de locus sont impliqués dans la maladie ?
* combien de locus sont impliqués dans la maladie ?
* quelle est la fonction de la protéine pour laquelle code le gène FXN ?
* quelle est la fonction de la protéine pour laquelle code le gène FXN ?
-
* combien d'exons contient ce gène ?
+
 
-
* existe-t-il plusieurs isoformes de la protéine ?
+
== Exercice 5 : Interrogation des banques de familles et de domaines protéiques==
-
* connait-on les évènements mutationnels qui conduisent à la maladie ? Si oui, quels sont-ils ?
+
 
 +
''' Récupérez la séquence P00174 au format FASTA '''
 +
 
 +
Interrogez InterPro à [http://www.ebi.ac.uk/ l'EBI] (aller dans Services => Proteins => InterProScan)
 +
* Regardez les liens vers PFAM (PF) et PROSITE (PS).
 +
* Comparer les positions des domaines selon les banques.
 +
* Combien y a-t-il de membres dans cette famille ? Combien d'organismes possèdent ce domaine ?

Current revision as of 13:20, 5 January 2016

Contents

Introduction

Ce TD a pour but de vous familiariser avec la recherche d'informations scientifiques disponibles dans les banques de données bibliographiques, biologiques ou encore de séquences.

Ci-dessous une sélection des sites Internet qui vous seront nécessaires au cours des TD:

Exercice 1 : Recherche dans les banques via l'utilisation de mots clés

Nous allons utiliser le moteur de recherche du NCBI nommé 'ENTREZ'

Sur le serveur du NCBI, identifiez:

  • toutes les séquences de l'oomycète Phytophthora (parasite de la pomme de terre), combien sont-elles ?
  • les séquences protéiques de Phytophthora parasitica pouvant interagir avec la cellulose

Pour cela sur le site du NCBI sélectionnez les banques "protéines", puis dans la barre de requête il est possible de combiner plusieurs termes à l'aide des opérateurs booléens (AND, OR, NOT) puis l'option Advanced (sous la barre de requête) et le bouton Preview, en précisant les champs, Organism, Title... à l'aide de l'outil Search builder et conjuguer vos requêtes. L'historique de vos requêtes est visible.

Vous pouvez également aller directement sur la page d'accueil du moteur de recherche ENTREZ du NCBI (http://www.ncbi.nlm.nih.gov/Entrez/) et réaliser votre requête.


On s'intéresse maintenant à la séquence dont le numéro d'accession est CAA65843

Regardez la fiche de la séquence correspondante :

  • comment s'organise cette fiche ? (format GenPept)
  • quel est le nom de cette protéine ?
  • quel le nombre d'acides aminés constituant cette protéine ?
  • dans quel journal scientifique les travaux concernant cette protéine ont-ils été publiés ?
  • sous quel numéro cette publication est-elle référencée dans PubMed ?
  • cette protéine est-elle sécrétée ? (adressée dans la paroi du microorganisme et/ou sécrété dans milieu extérieur)


On s'intéresse maintenant aux références croisées, notées "db_xref" sur la fiche

  • à quoi correspondent les différents liens croisées :

- db_xref="InterPro:IPR000177" - db_xref="GOA:O42830" - db_xref="UniProtKB/TrEMBL:O42830

  • quels domaines protéiques sont présent dans la protéine ?
  • quel est la fonction du domaine "IPR00254" ? est-il spécifique des oomycètes/champignons ou tout autre espèce ?
  • ce domaine est-il référencé dans d'autres banques de domaine ? Si oui, lesquelles et sous quelle nomenclature ?


On s'intéresse maintenant à O42830

  • ouvrir la fiche TrEMBL de O42830. Que constatez-vous par rapport à la fiche GenPept ?
  • quel est le numero d'accession de l'ARNm correspondant ?

Exercice 2 : Recherche dans les banques via l'utilisation d'une séquence connue

Récupérez la séquence P07987

  • de quelle type de séquence s'agit-il ?
  • à quel organisme appartient-elle ?
  • quelle est la fonction de P07987  ?
  • dans quelle banque cette séquence est-elle déposée ?
  • afficher la séquence au format fasta
  • cette séquence présente-t-elle des homologues ?
  • indiquez les positions du domaine CBM1 (utiliser la fiche Uniprot
  • la structure 3D de cette protéine est elle connue, si oui quel est le numero d'accession de cette structure ?

Exercice 3 : Interrogation de banques spécialisées par utilisation de mots clés ou séquences connues

1°) Allez sur le site de la banque spécialisée COGEME

  • a quel type de banque appartient COGEME ?
  • trouvez le nombre de séquences correspondant à des endoglucanases du champignon pathogène du riz, Magnaporthe grisea
  • qu'est ce qu'un contig ?
  • de combien d'EST est constituée le contig MagCon[10456a] ?
  • afficher au format FASTA l'ensemble des endoglucanases de M. grisea

2°) Allez sur le site du Broad Institute

  • qu'est-ce que le Broad Institute ?
  • existe-t-il des données sur le champignon Colletotrichum graminicola ?
  • combien de gènes modèles ont été détectés chez C. higginsianum IMI 349063
  • combien de gènes codant le facteur de transcription 'ste12' est détecté dans le génome de C. graminicola ?

Exercice 4 : Recherche dans les banques de "connaissances"

Nous prendrons comme fil conducteur, l'ataxie de Friedreich, maladie génétique.

1°) Utiliser le moteur de recherche Google avec les mots clefs ataxie de Friedreich.

Refaire la même opération en passant à l'anglais : Friedreich ataxia

Sur quels types de sites tombez-vous essentiellement ?

2°) Consultation de la banque OMIM (Online Mendelian Inheritance in Man) localisée sur le serveur du NCBI.

A partir des informations qui vous sont fournies, répondre aux questions suivantes:

  • comment est hérité la maladie ?
  • quelle est la fréquence de la maladie dans la population européenne?
  • cette fréquence est-elle la même pour toutes les populations ?
  • sur quel chromosome a été identifié le locus FRDA
  • combien de locus sont impliqués dans la maladie ?
  • quelle est la fonction de la protéine pour laquelle code le gène FXN ?

Exercice 5 : Interrogation des banques de familles et de domaines protéiques

Récupérez la séquence P00174 au format FASTA

Interrogez InterPro à l'EBI (aller dans Services => Proteins => InterProScan)

  • Regardez les liens vers PFAM (PF) et PROSITE (PS).
  • Comparer les positions des domaines selon les banques.
  • Combien y a-t-il de membres dans cette famille ? Combien d'organismes possèdent ce domaine ?