silico.biotoul.fr
 

TD1 Bioanalyse

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
m (EXERCICE 2 : Recherche dans les banques via l'utilisation de mots clés)
(EXERCICE 4 : Recherche dans des banques spécialisées)
Line 94: Line 94:
*interrogez [http://pfam.xfam.org/ PFAM] par mots-clés pour chercher les domaines cytochrome b5
*interrogez [http://pfam.xfam.org/ PFAM] par mots-clés pour chercher les domaines cytochrome b5
*interrogez InterPro avec InterProScan à l'[http://www.ebi.ac.uk/ EBI] (Onglet Services => InterProScan) pour chercher s'il y a des domaines connus sur la séquence P00174 (que vous devez d'abord récupérer au format FASTA sur UniProt ou au NCBI).
*interrogez InterPro avec InterProScan à l'[http://www.ebi.ac.uk/ EBI] (Onglet Services => InterProScan) pour chercher s'il y a des domaines connus sur la séquence P00174 (que vous devez d'abord récupérer au format FASTA sur UniProt ou au NCBI).
-
En cas de problème, lien vers ancienne version InterProScan : http://www.ebi.ac.uk/interpro/legacy
+
En cas de problème, lien vers ancienne version InterProScan : http://www.ebi.ac.uk/interpro/    http://www.ebi.ac.uk/interpro/legacy

Revision as of 08:38, 28 January 2022


Contents

OBJECTIFS

 - Etre capable de retrouver une séquence dont on connait le numéro d'accession dans sa banque
 - Savoir comment s'organisent les fiches des séquences, et où y chercher les informations
 - Etre capable de trouver une ou des séquences à l'aide de mots clés ciblant des champs spécifiques
 - Naviguer entre les banques, changer de format, télécharger des séquences

EXERCICE 1 : Accéder à une séquence prédéfinie dans les banques

1/ Aller sur le site d' UniProt

  • Où êtes-vous localisés ? Qu'est-ce que Uniprot ?
  • Combien de séquences sont référencées dans la section SwissProt de UniProt ? dans la section TrEMBL de UniProt?

Chercher la séquence P01308 dans Uniprot

  • De quelle protéine s'agit-il ? chez quel organisme ?
  • Quelle est la taille de cette séquence ?
  • Que sont les "VARIANT" ?
  • Y a-t-il des preuves expérimentales de l'existence de cette protéine ?
  • Est-elle dans UniProt-trEMBL ou UniProt-SwissProt ?
  • Dans quels processus intervient cette protéine ? Cliquer sur des liens de la GO et regarder Ancestor Chart

Faire afficher le format UniProtKB en cliquant sur Format => Text en haut de la page

2/ Sur le site du NCBI : chercher (via ENTREZ) la même séquence.

  • Quels sont les résultats ?
  • Cliquer sur Protein : la séquence est ici au format GenPept

Faire afficher le format 'FASTA' de la séquence. Qu'est ce que le format FASTA ?

  • Revenez aux résultats et cliquer sur Gene : regarder l'entrée INS, en particulier la partie NCBI Reference Sequences : combien de variants d'épissage ? et dans Related Sequences : combien d'ARNm ?

EXERCICE 2 : Recherche dans les banques via l'utilisation de mots clés

1/ Sur le serveur du NCBI, identifiez :

  • toutes les séquences de l'oomycète Phytophthora (parasite de la pomme de terre) : combien sont-elles ?
  • les séquences protéiques de Phytophthora parasitica correspondant à des éliciteurs (molécules capables d'induire les réponses immunitaires chez les végétaux)

Pour cela utiliser ENTREZ, et si vous ne voulez rechercher que dans la banque protéique, cliquer sur Protein, puis utiliser l'option Advanced. A l'aide de l'outil Search builder préciser les champs (Organism, Title...) et conjuguer vos requêtes. Par défaut lorsque plusieurs mots clés sont utilisés c'est l'opérateur AND qui s'applique entre les mots. L'historique de vos requêtes est disponible en dessous et vous pouvez combinez des résultats de requêtes précédentes avec les mêmes opérateurs AND, OR et NOT.

NB : L'utilisation de * permet de chercher une famille de mots. Par exemple, avec elicit*, vous pourrez trouver elicitor, elicitate, elicitin...

2/ On s'intéresse maintenant à la séquence dont le numéro d'accession est CAA65843

Regardez la fiche de la séquence correspondante :

  • comment s'organise cette fiche ?
  • quel est le nom de cette protéine ?
  • dans quel journal scientifique les travaux concernant cette protéine ont-ils été publiés ?
  • sous quel numéro cette publication est-elle référencée dans PubMed ?
  • de combien d'acides aminés est composée cette protéine ?


3/ On s'intéresse maintenant aux références croisées, notées "db_xref" sur la fiche

  • à quoi correspondent ces différentes références croisées ?
  • quels domaines sont présents dans la protéine ?
  • quelle est la fonction du domaine "IPR000254" ? est-il spécifique des oomycètes/champignons ou de toute autre espèce ?
  • ce domaine est-il référencé dans d'autres banques de domaines ? Si oui, lesquelles et avec quel numéro d'accession ?
  • aller sur le lien db_xref vers UniProt O42830 :

- à quelle section de UniProt appartient cette séquence ?
- que constatez-vous par rapport à la fiche GenPept ?
- quelles sont les fonctions moléculaires correspondant à la Gene Ontology ? Donner les numéros des termes GO associés. L'annotation GO est-elle dans GenPept ?

  • sans cliquer sur le bouton 'retour en arrière de votre navigateur', depuis Uniprot (EBI-EMBL), trouver un moyen pour revenir à la fiche initiale au NCBI

EXERCICE 3 : Quelques exemples de recherches avancées sur Uniprot

1/ Chercher les séquences protéiques d'insuline chez le chien :

  • combien sont référencées dans UniProt/SwissProt ?
  • combien dans trEMBL ?
  • afficher les séquences au format FASTA

2/ Toujours sur UniProt, chercher des séquences protéiques de dinosaures

3/ Trouver le nombre de séquences de trEMBL avec des preuves au niveau protéique, chez des organismes eucaryotes n'appartenant pas aux champignons.

  • combien sont transmembranaires ?

EXERCICE 4 : Recherche dans des banques spécialisées

1/ Allez sur le site ARAPORT

  • qu'est-ce qu'ARAPORT ?
  • Allez sur JBROWSE : utilisez le zoom pour afficher des gènes sur une région. Demandez à voir les alignements avec EST/Full length cDNAs
  • Allez dans THALEMINE : dans l'onglet Regions, chercher les CDS du chromosome 4 entre la position 20 000 et 60 000

2/ Recherches dans les banques de domaines :

  • interrogez PFAM par mots-clés pour chercher les domaines cytochrome b5
  • interrogez InterPro avec InterProScan à l'EBI (Onglet Services => InterProScan) pour chercher s'il y a des domaines connus sur la séquence P00174 (que vous devez d'abord récupérer au format FASTA sur UniProt ou au NCBI).

En cas de problème, lien vers ancienne version InterProScan : http://www.ebi.ac.uk/interpro/ http://www.ebi.ac.uk/interpro/legacy