silico.biotoul.fr
 

TD1 Bioanalyse

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
(EXERCICE 4 : Recherche dans des banques spécialisées)
(EXERCICE 2 : Recherche dans les banques via l'utilisation de mots clés)
 
(9 intermediate revisions not shown)
Line 15: Line 15:
*Quelle est la taille de cette séquence ?
*Quelle est la taille de cette séquence ?
*Que sont les "VARIANT" ?
*Que sont les "VARIANT" ?
-
*Y a-t-il des preuves expérimentales de l'existence de cette protéine ?
 
*Est-elle dans UniProt-trEMBL ou UniProt-SwissProt ?
*Est-elle dans UniProt-trEMBL ou UniProt-SwissProt ?
*Dans quels processus intervient cette protéine ? Cliquer sur des liens de la GO et regarder '''Ancestor Chart'''
*Dans quels processus intervient cette protéine ? Cliquer sur des liens de la GO et regarder '''Ancestor Chart'''
Line 28: Line 27:
'''Faire afficher le format 'FASTA' de la séquence.
'''Faire afficher le format 'FASTA' de la séquence.
*Revenez aux résultats et cliquer sur '''Gene''' :  
*Revenez aux résultats et cliquer sur '''Gene''' :  
-
- regardez l'entrée INS, en particulier la partie '''NCBI Reference Sequences''' : combien de variants d'épissage ? et dans '''Related Sequences''' : combien d'ARNm ?<br>
+
- Regardez l'entrée INS, en particulier la partie '''NCBI Reference Sequences''' : combien de variants d'épissage ? et dans '''Related Sequences''' : combien d'ARNm ?<br>
- Regardez la séquence génomique RefSeq NG_007114 (format Genbank) : combien d'exons composent ce gène ? combien constituent la séquence codante ?
- Regardez la séquence génomique RefSeq NG_007114 (format Genbank) : combien d'exons composent ce gène ? combien constituent la séquence codante ?
Line 36: Line 35:
'''1/''' Sur le serveur du [http://www.ncbi.nlm.nih.gov/ NCBI], identifiez :
'''1/''' Sur le serveur du [http://www.ncbi.nlm.nih.gov/ NCBI], identifiez :
-
*toutes les séquences de l'oomycète Phytophthora (parasite de la pomme de terre) : combien sont-elles ?
+
*toutes les séquences de Phytophthora (oomycète, parasite de la pomme de terre) : combien sont-elles ?
*les séquences protéiques de ''Phytophthora parasitica'' correspondant à des éliciteurs (molécules capables d'induire les réponses immunitaires chez les végétaux)
*les séquences protéiques de ''Phytophthora parasitica'' correspondant à des éliciteurs (molécules capables d'induire les réponses immunitaires chez les végétaux)
-
Pour cela utiliser ENTREZ, et si vous ne voulez rechercher que dans la banque protéique, cliquer sur Protein, puis utiliser l'option Advanced.   
+
Pour faire cela, vous utilisez ENTREZ.  Si vous ne voulez rechercher que dans la banque protéique, cliquez sur Protein, puis utilisez l'option Advanced.   
-
A l'aide de l'outil Search builder préciser les champs (Organism, Title...)  et conjuguer vos requêtes.  
+
A l'aide de l'outil Search builder précisez les champs (Organism, Title...)  et conjuguez vos requêtes.  
Par défaut lorsque plusieurs mots clés sont utilisés c'est l'opérateur AND qui s'applique entre les mots.
Par défaut lorsque plusieurs mots clés sont utilisés c'est l'opérateur AND qui s'applique entre les mots.
-
L'historique de vos requêtes est disponible en dessous et vous pouvez combinez des résultats de requêtes précédentes avec les mêmes opérateurs AND, OR et NOT.
+
L'historique de vos requêtes est disponible en dessous et vous pouvez combiner des résultats de requêtes précédentes avec les mêmes opérateurs AND, OR et NOT.
''NB : L'utilisation de * permet de chercher une famille de mots. Par exemple, avec elicit*, vous pourrez trouver elicitor, elicitate, elicitin...''
''NB : L'utilisation de * permet de chercher une famille de mots. Par exemple, avec elicit*, vous pourrez trouver elicitor, elicitate, elicitin...''
Line 61: Line 60:
*quels domaines sont présents dans la protéine ?
*quels domaines sont présents dans la protéine ?
*quelle est la fonction du domaine "IPR000254" ? est-il spécifique des oomycètes/champignons ou de toute autre espèce ?
*quelle est la fonction du domaine "IPR000254" ? est-il spécifique des oomycètes/champignons ou de toute autre espèce ?
-
*ce domaine est-il référencé dans d'autres banques de domaines ? Si oui, lesquelles et avec quel numéro d'accession ?
+
*Dans quelles banques de domaines est référencé ce domaine ? avec quels numéros d'accession ?
*aller sur le lien db_xref vers UniProt O42830 :
*aller sur le lien db_xref vers UniProt O42830 :
- à quelle section de UniProt appartient cette séquence ?<br>
- à quelle section de UniProt appartient cette séquence ?<br>
Line 75: Line 74:
*afficher les séquences au format FASTA
*afficher les séquences au format FASTA
-
'''3/''' Toujours sur UniProt, chercher des séquences protéiques de dinosaures
+
'''3/''' Toujours sur UniProt, cherchez des séquences protéiques de dinosaures
'''4/''' Trouvez le nombre de séquences de trEMBL avec des preuves au niveau protéique, chez des organismes eucaryotes n'appartenant pas aux champignons.
'''4/''' Trouvez le nombre de séquences de trEMBL avec des preuves au niveau protéique, chez des organismes eucaryotes n'appartenant pas aux champignons.
-
*combien sont transmembranaires ?
+
*combien sont transmembranaires ? (choisir "Any automatic assertion")
=EXERCICE 4 : Recherche dans des banques spécialisées=
=EXERCICE 4 : Recherche dans des banques spécialisées=
Line 84: Line 83:
1/ Navigation sur un génome avec [https://www.ncbi.nlm.nih.gov/genome/gdv GDV]
1/ Navigation sur un génome avec [https://www.ncbi.nlm.nih.gov/genome/gdv GDV]
*regardez le génome humain en cliquant à droite sur Browse genome : déplacez-vous, zoomez, dé-zoomez...
*regardez le génome humain en cliquant à droite sur Browse genome : déplacez-vous, zoomez, dé-zoomez...
-
*cherchez le gène INS
+
*cherchez le gène INS : regardez la structure du gène. Cliquez sur INS[+8] pour faire afficher les variants et les protéines
*modifiez l'affichage : dans [[File:roue.jpg]] => configure tracks => Sequence => cochez Six frame translation, et Pst1 Recognition sites
*modifiez l'affichage : dans [[File:roue.jpg]] => configure tracks => Sequence => cochez Six frame translation, et Pst1 Recognition sites
   
   
2/ Recherches dans les banques de domaines :
2/ Recherches dans les banques de domaines :
-
*interrogez [http://www.ebi.ac.uk/interpro/ InterPro] par mots-clés pour chercher le domaine cytochrome b5
+
*interrogez [http://www.ebi.ac.uk/interpro/ InterPro] par mots-clés (Search by text) pour chercher le domaine cytochrome b5
*interrogez maintenant InterPro par séquence avec le format FASTA de la séquence P00174 (à chercher sur UniProt ou au NCBI).
*interrogez maintenant InterPro par séquence avec le format FASTA de la séquence P00174 (à chercher sur UniProt ou au NCBI).
 +
(si la recherche met trop longtemps, utilisez Search by text avec P00174)

Current revision as of 12:20, 17 January 2023


Contents

OBJECTIFS

 - Etre capable de retrouver une séquence dont on connait le numéro d'accession dans sa banque
 - Savoir comment s'organisent les fiches des séquences, et où y chercher les informations
 - Etre capable de trouver une ou des séquences à l'aide de mots clés ciblant des champs spécifiques
 - Naviguer entre les banques, changer de format, télécharger des séquences

EXERCICE 1 : Accéder à une séquence prédéfinie dans les banques

1/ Cherchez la séquence P01308 dans UniProt

  • De quelle protéine s'agit-il ? chez quel organisme ?
  • Quelle est la taille de cette séquence ?
  • Que sont les "VARIANT" ?
  • Est-elle dans UniProt-trEMBL ou UniProt-SwissProt ?
  • Dans quels processus intervient cette protéine ? Cliquer sur des liens de la GO et regarder Ancestor Chart

Faire afficher le format UniProtKB en cliquant sur Download => Text en haut de la page

2/ Sur le site du NCBI : chercher (via ENTREZ) la même séquence.

  • Quels sont les résultats ?
  • Cliquez sur Protein : la séquence est ici au format GenPept

Faire afficher le format 'FASTA' de la séquence.

  • Revenez aux résultats et cliquer sur Gene :

- Regardez l'entrée INS, en particulier la partie NCBI Reference Sequences : combien de variants d'épissage ? et dans Related Sequences : combien d'ARNm ?
- Regardez la séquence génomique RefSeq NG_007114 (format Genbank) : combien d'exons composent ce gène ? combien constituent la séquence codante ?

EXERCICE 2 : Recherche dans les banques via l'utilisation de mots clés

1/ Sur le serveur du NCBI, identifiez :

  • toutes les séquences de Phytophthora (oomycète, parasite de la pomme de terre) : combien sont-elles ?
  • les séquences protéiques de Phytophthora parasitica correspondant à des éliciteurs (molécules capables d'induire les réponses immunitaires chez les végétaux)

Pour faire cela, vous utilisez ENTREZ. Si vous ne voulez rechercher que dans la banque protéique, cliquez sur Protein, puis utilisez l'option Advanced. A l'aide de l'outil Search builder précisez les champs (Organism, Title...) et conjuguez vos requêtes. Par défaut lorsque plusieurs mots clés sont utilisés c'est l'opérateur AND qui s'applique entre les mots. L'historique de vos requêtes est disponible en dessous et vous pouvez combiner des résultats de requêtes précédentes avec les mêmes opérateurs AND, OR et NOT.

NB : L'utilisation de * permet de chercher une famille de mots. Par exemple, avec elicit*, vous pourrez trouver elicitor, elicitate, elicitin...

2/ On s'intéresse maintenant à la séquence dont le numéro d'accession est CAA65843

Regardez la fiche de la séquence correspondante :

  • quel est le nom de cette protéine ?
  • dans quel journal scientifique les travaux concernant cette protéine ont-ils été publiés ?
  • sous quel numéro cette publication est-elle référencée dans PubMed ?
  • de combien d'acides aminés est composée cette protéine ?


3/ On s'intéresse maintenant aux références croisées, notées "db_xref" sur la fiche

  • à quoi correspondent ces différentes références croisées ?
  • quels domaines sont présents dans la protéine ?
  • quelle est la fonction du domaine "IPR000254" ? est-il spécifique des oomycètes/champignons ou de toute autre espèce ?
  • Dans quelles banques de domaines est référencé ce domaine ? avec quels numéros d'accession ?
  • aller sur le lien db_xref vers UniProt O42830 :

- à quelle section de UniProt appartient cette séquence ?
- quelles sont les fonctions moléculaires correspondant à la Gene Ontology ? Donner les numéros des termes GO associés. L'annotation GO est-elle dans GenPept ?

EXERCICE 3 : Quelques exemples de recherches avancées sur Uniprot

1/ Combien y a-t-il de séquences dans UniProt-SwissProt et combien dans UniProt-trEMBL ?

2/ Cherchez les séquences protéiques d'insuline chez le chien :

  • combien sont référencées dans UniProt/SwissProt ?
  • combien dans trEMBL ?
  • afficher les séquences au format FASTA

3/ Toujours sur UniProt, cherchez des séquences protéiques de dinosaures

4/ Trouvez le nombre de séquences de trEMBL avec des preuves au niveau protéique, chez des organismes eucaryotes n'appartenant pas aux champignons.

  • combien sont transmembranaires ? (choisir "Any automatic assertion")

EXERCICE 4 : Recherche dans des banques spécialisées

1/ Navigation sur un génome avec GDV

  • regardez le génome humain en cliquant à droite sur Browse genome : déplacez-vous, zoomez, dé-zoomez...
  • cherchez le gène INS : regardez la structure du gène. Cliquez sur INS[+8] pour faire afficher les variants et les protéines
  • modifiez l'affichage : dans File:roue.jpg => configure tracks => Sequence => cochez Six frame translation, et Pst1 Recognition sites

2/ Recherches dans les banques de domaines :

  • interrogez InterPro par mots-clés (Search by text) pour chercher le domaine cytochrome b5
  • interrogez maintenant InterPro par séquence avec le format FASTA de la séquence P00174 (à chercher sur UniProt ou au NCBI).

(si la recherche met trop longtemps, utilisez Search by text avec P00174)