silico.biotoul.fr
 

L2-L3 Bioinfo - TP Banques de données et analyse de séquences

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
(Exercice 1: Recherche d'informations dans les banques de données)
m (Annexes au TP)
 
(28 intermediate revisions not shown)
Line 3: Line 3:
Les TPs précédents ont permis de mettre en évidence l'implication de la séquence At5g46330 d'''Arabidopsis thaliana'' dans les phénomènes analysés. L'idée est maintenant d'obtenir le maximum d'informations sur cette séquence (fonction, localisation, existence d'homologues, ...) afin d'établir une hypothèse quant au rôle d'At5g46330 d' ''A. thaliana''.
Les TPs précédents ont permis de mettre en évidence l'implication de la séquence At5g46330 d'''Arabidopsis thaliana'' dans les phénomènes analysés. L'idée est maintenant d'obtenir le maximum d'informations sur cette séquence (fonction, localisation, existence d'homologues, ...) afin d'établir une hypothèse quant au rôle d'At5g46330 d' ''A. thaliana''.
-
<! -- Annee speciale 2021!
+
<!-- Annee speciale 2021!
 +
 
== Exercice 1: Recherche d'informations dans les banques de données==
== Exercice 1: Recherche d'informations dans les banques de données==
Line 31: Line 32:
3/ '''Sur le portail dédié à ''' [https://www.araport.org/ Arabidopsis]
3/ '''Sur le portail dédié à ''' [https://www.araport.org/ Arabidopsis]
* Dans quels tissus d'Arabidospis AT5G46330 s'exprime-t-il préferentiellement ?
* Dans quels tissus d'Arabidospis AT5G46330 s'exprime-t-il préferentiellement ?
-
<!--* Si l'on traite Arabidopsis avec un composé issu du microorganisme (elicitor), le profil d'expression est-il comparable à celui obtenu après traitement avec le microorganisme 'entier' (bactérie Pseudomonas) ?
 
-
* Est-il possible de commander des mutants d'Arabidopsis affecté pour AT5G46330 ? Si oui, comment ces mutants ont-ils été obtenus ?-->
 
* Quel est le numéro d'accession dans la banque UniprotKb de la protéine correspondante ?
* Quel est le numéro d'accession dans la banque UniprotKb de la protéine correspondante ?
* Récupérez et enregistrez la séquence en acides aminés de la protéine correspondante (FASTA)
* Récupérez et enregistrez la séquence en acides aminés de la protéine correspondante (FASTA)
-
 
-->
-->
-
== Exercice 2: Analyse d'une séquence protéique==
+
== Exercice 1: Analyse d'une séquence protéique==
-
L'idée ici est de définir la fonction, la localisation subcellulaire et les processus physiologiques dans lesquels pourraient intervenir la protéine au sein d' ''A. thaliana'' et de confronter notre analyse aux annotations présentes dans les banques de données.  
+
L'idée ici est de définir la fonction, la localisation subcellulaire et les processus physiologiques dans lesquels pourraient intervenir la protéine au sein d' ''A. thaliana'' et de confronter notre analyse aux annotations présentes dans les banques de données (qui peuvent ne pas être à jour, voire comporter des erreurs).  
 +
 
 +
1/''' Sur le site du [http://www.ncbi.nlm.nih.gov/ NCBI]'''
 +
 
 +
* Qu'est ce que le NCBI ?
 +
* Identifiez si la séquence portant le numéro d'accession AT5G46330 est référencée dans les banques hébergées au NCBI
 +
* Existe-t-il des publications scientifiques relatives à cette séquence ? Dans quelles bases de données sont-elles stockées ?
 +
* Identifiez si la séquence protéique correspondante est référencée dans la banque de données Uniprot/SwissProt (Ouvrez la fiche de <tt>Gene</tt> de AT5G46330 puis section NCBI Reference Sequences → mRNA & Proteins → UniProtKB/Swiss-Prot)
 +
* Conservez la séquence protéique correspondante au format FASTA (Gardez la page ouverte)
-
1/ '''Recherche''' de domaines protéiques
+
2/ '''Recherche''' de domaines protéiques
-
* utilisez InterProScan à l'[http://www.ebi.ac.uk/ EBI] (Services <!--=> Proteins--> => InterProScan) pour chercher des domaines connus sur cette séquence
+
* utilisez InterProScan à l'[http://www.ebi.ac.uk/ EBI] (Find data resources → Tools → InterProScan) pour y copier/coller la séquence protéique pour y chercher des domaines connus sur cette séquence.
* notez la position des domaines identifiés dans la banque de domaines Pfam
* notez la position des domaines identifiés dans la banque de domaines Pfam
* quelle pourrait être la fonction de cette séquence d'Arabette ?
* quelle pourrait être la fonction de cette séquence d'Arabette ?
-
2/''' Sur le site''' [http://www.expasy.org/proteomics d'Expasy] définissez
+
3/''' Sur le site''' [http://www.expasy.org/ Expasy] et celui de l'EBI,
-
* le poids moléculaire et le point isoélectrique de la protéine avec Compute pI/MW
+
* définissez le poids moléculaire et le point isoélectrique de la protéine avec "Compute pI/MW"
-
<!--* si la protéine présente
+
* regardez si la protéine présente des régions transmembranaires avec Phobius (site de l'EBI)<br>
-
- un signal de de sécrétion (peptide signal)avec SignalP <br>
+
-
- un signal de localisation nucléaire (NLS) avec NLStradamus <br>-->
+
-
*regardez la topologie prédite pour cette protéine, et notez les positions, avec Phobius <br>
+
* conclure quant à la localisation subcellulaire de cette protéine d'Arabette
* conclure quant à la localisation subcellulaire de cette protéine d'Arabette
-
== Exercice 3: Confrontation d'annotation ==
+
== Exercice 2: Confrontation d'annotation ==
Nous allons vérifier votre annotation fonctionnelle de la protéine avec ce qui est connu dans les banques de données
Nous allons vérifier votre annotation fonctionnelle de la protéine avec ce qui est connu dans les banques de données
Line 66: Line 69:
* Les données de la fiche UniProt sont-elles en accord avec votre annotation ?
* Les données de la fiche UniProt sont-elles en accord avec votre annotation ?
 +
<!-- Année spécaile 2021
2/ '''Sur le portail dédié''' à [https://www.araport.org/ Arabette]
2/ '''Sur le portail dédié''' à [https://www.araport.org/ Arabette]
* Retrouvez-vous les annotations liées à cette protéine ?
* Retrouvez-vous les annotations liées à cette protéine ?
 +
-->
-
== Exercice 4: Recherche de séquences similaires à une séquence d'intérêt ==
+
== Exercice 3: Recherche de séquences similaires à une séquence d'intérêt ==
En parallèle à l'étude sur Arabette, un autre laboratoire de recherche a isolé un locus situé sur le chromosome 4 du riz (''Oryza sativa'') pouvant jouer un rôle majeur dans les interactions riz-microrganismes. Ce locus coderait pour quatre protéines dont celle présentée ci-dessous :
En parallèle à l'étude sur Arabette, un autre laboratoire de recherche a isolé un locus situé sur le chromosome 4 du riz (''Oryza sativa'') pouvant jouer un rôle majeur dans les interactions riz-microrganismes. Ce locus coderait pour quatre protéines dont celle présentée ci-dessous :
Line 96: Line 101:
1/ '''Sur le site''' du [https://www.ncbi.nlm.nih.gov/ NCBI]
1/ '''Sur le site''' du [https://www.ncbi.nlm.nih.gov/ NCBI]
-
* rechercher si cette séquence de riz est déjà répertoriée dans les bases de données via une analyse BlastP en sélectionnant "Database: non-redundant protein sequence (nr)"
+
* rechercher si cette séquence de riz est déjà répertoriée dans les bases de données via une analyse BlastP (Colone de Droite → Popular Resources → BLAST → Protein Blast puis copier/coller votre séquence dans le cadre, sélectionner "Database: non-redundant protein sequence (nr), cliquer sur BLAST"
* cette séquence présente-t-elle des similarités avec d'autres séquences de plantes ?
* cette séquence présente-t-elle des similarités avec d'autres séquences de plantes ?
* refaites une analyse BlastP mais en sélectionnant 'Database: UniprotKb/swissProt (swissprot)'
* refaites une analyse BlastP mais en sélectionnant 'Database: UniprotKb/swissProt (swissprot)'
Line 129: Line 134:
-
Résultats  [[Media:InterProScan.FLS2-ARATH.png|InterProScan]] <br>
+
Résultats   
 +
 
 +
* [[Media:InterProScan.FLS2-ARATH.png|InterProScan]] ou bien directement http://www.ebi.ac.uk/interpro/protein/reviewed/Q9FL28/
 +
* [[Media:Phobius.FLS2-ARATH.pdf|Phobius]] FLS2_ARATH
 +
* [[Media:BlastP.OsProt.nr.pdf|BlastP]] OsProt contre nr
 +
* [[Media:BlastP.OsProt.swissprot.pdf|BlastP]] OsProt contre UniProt/SwissProt
<!--
<!--
Résultats [[Media:TMHMM.jpg|TMHMM]] <br>
Résultats [[Media:TMHMM.jpg|TMHMM]] <br>
Résultats [[Media:SignalP.jpg|SignalP]]<br>
Résultats [[Media:SignalP.jpg|SignalP]]<br>
-->
-->

Current revision as of 11:10, 21 March 2022

Contents

Introduction

Les TPs précédents ont permis de mettre en évidence l'implication de la séquence At5g46330 d'Arabidopsis thaliana dans les phénomènes analysés. L'idée est maintenant d'obtenir le maximum d'informations sur cette séquence (fonction, localisation, existence d'homologues, ...) afin d'établir une hypothèse quant au rôle d'At5g46330 d' A. thaliana.


Exercice 1: Analyse d'une séquence protéique

L'idée ici est de définir la fonction, la localisation subcellulaire et les processus physiologiques dans lesquels pourraient intervenir la protéine au sein d' A. thaliana et de confronter notre analyse aux annotations présentes dans les banques de données (qui peuvent ne pas être à jour, voire comporter des erreurs).

1/ Sur le site du NCBI

  • Qu'est ce que le NCBI ?
  • Identifiez si la séquence portant le numéro d'accession AT5G46330 est référencée dans les banques hébergées au NCBI
  • Existe-t-il des publications scientifiques relatives à cette séquence ? Dans quelles bases de données sont-elles stockées ?
  • Identifiez si la séquence protéique correspondante est référencée dans la banque de données Uniprot/SwissProt (Ouvrez la fiche de Gene de AT5G46330 puis section NCBI Reference Sequences → mRNA & Proteins → UniProtKB/Swiss-Prot)
  • Conservez la séquence protéique correspondante au format FASTA (Gardez la page ouverte)

2/ Recherche de domaines protéiques

  • utilisez InterProScan à l'EBI (Find data resources → Tools → InterProScan) pour y copier/coller la séquence protéique pour y chercher des domaines connus sur cette séquence.
  • notez la position des domaines identifiés dans la banque de domaines Pfam
  • quelle pourrait être la fonction de cette séquence d'Arabette ?

3/ Sur le site Expasy et celui de l'EBI,

  • définissez le poids moléculaire et le point isoélectrique de la protéine avec "Compute pI/MW"
  • regardez si la protéine présente des régions transmembranaires avec Phobius (site de l'EBI)
  • conclure quant à la localisation subcellulaire de cette protéine d'Arabette

Exercice 2: Confrontation d'annotation

Nous allons vérifier votre annotation fonctionnelle de la protéine avec ce qui est connu dans les banques de données

1/ Sur le site de l'EBI référençant, entre autres, la banque de données "UniProtKb"

  • Aller sur la fiche descriptive correspondant à la protéine d'Arabette
  • Quelle est la localisation subcellulaire et la topologie de la protéine ?
  • Des domaines protéiques sont-ils indiqués ?
  • Quelle est la fonction de cette protéine (Regardez les annotations de la Gene Ontology "GO")
  • Les données de la fiche UniProt sont-elles en accord avec votre annotation ?


Exercice 3: Recherche de séquences similaires à une séquence d'intérêt

En parallèle à l'étude sur Arabette, un autre laboratoire de recherche a isolé un locus situé sur le chromosome 4 du riz (Oryza sativa) pouvant jouer un rôle majeur dans les interactions riz-microrganismes. Ce locus coderait pour quatre protéines dont celle présentée ci-dessous :

>OsProt
MERNKFASKMSQHYTKTICIAVVLVAVLFSLSSAAAAGSGAAVSVQLEALLEFKNGVADD
PLGVLAGWRVGKSGDGAVRGGALPRHCNWTGVACDGAGQVTSIQLPESKLRGALSPFLGN
ISTLQVIDLTSNAFAGGIPPQLGRLGELEQLVVSSNYFAGGIPSSLCNCSAMWALALNVN
NLTGAIPSCIGDLSNLEIFEAYLNNLDGELPPSMAKLKGIMVVDLSCNQLSGSIPPEIGD
LSNLQILQLYENRFSGHIPRELGRCKNLTLLNIFSNGFTGEIPGELGELTNLEVMRLYKN
ALTSEIPRSLRRCVSLLNLDLSMNQLAGPIPPELGELPSLQRLSLHANRLAGTVPASLTN
LVNLTILELSENHLSGPLPASIGSLRNLRRLIVQNNSLSGQIPASISNCTQLANASMSFN
LFSGPLPAGLGRLQSLMFLSLGQNSLAGDIPDDLFDCGQLQKLDLSENSFTGGLSRLVGQ
LGNLTVLQLQGNALSGEIPEEIGNMTKLISLKLGRNRFAGHVPASISNMSSLQLLDLGHN
RLDGVFPAEVFELRQLTILGAGSNRFAGPIPDAVANLRSLSFLDLSSNMLNGTVPAALGR
LDQLLTLDLSHNRLAGAIPGAVIASMSNVQMYLNLSNNAFTGAIPAEIGGLVMVQTIDLS
NNQLSGGVPATLAGCKNLYSLDLSGNSLTGELPANLFPQLDLLTTLNISGNDLDGEIPAD
IAALKHIQTLDVSRNAFAGAIPPALANLTALRSLNLSSNTFEGPVPDGGVFRNLTMSSLQ
GNAGLCGGKLLAPCHGHAAGKKRVFSRTGLVILVVLIALSTLLLLMVATILLVSYRRYRR
KRRAADIAGDSPEAAVVVPELRRFSYGQLAAATNSFDQGNVIGSSNLSTVYKGVLAGDAD
GGMVVAVKRLNLEQFPSKSDKCFLTELATLSRLRHKNLARVVGYAWEAGKIKALVLDYMV
NGDLDGAIHGGAAAPPPAPSRWTVRERLRVCVSVAHGLVYLHSGYDFPVVHCDVKPSNVL
LDGDWEARVSDFGTARMLGVHLPAAANAAAQSTATSSAFRGTVGYMAPEFAYMRTVSTKV
DVFSFGVLAMELFTGRRPTGTIEEDGVPLTLQQLVDNAVSRGLDGVHAVLDPRMKVATEA
DLSTAADVLAVALSCAAFEPADRPDMGAVLSSLLKMSKLVGED

1/ Sur le site du NCBI

  • rechercher si cette séquence de riz est déjà répertoriée dans les bases de données via une analyse BlastP (Colone de Droite → Popular Resources → BLAST → Protein Blast puis copier/coller votre séquence dans le cadre, sélectionner "Database: non-redundant protein sequence (nr), cliquer sur BLAST"
  • cette séquence présente-t-elle des similarités avec d'autres séquences de plantes ?
  • refaites une analyse BlastP mais en sélectionnant 'Database: UniprotKb/swissProt (swissprot)'
  • que remarquez-vous ?
  • que pouvez-vous émettre comme hypothèses quant à la fonction et la localisation de cette protéine de riz ? Vous pouvez confrontez votre hypothèse avec la fiche descriptive associée à la protéine




Annexes au TP

>FLS2_ARATH
MKLLSKTFLILTLTFFFFGIALAKQSFEPEIEALKSFKNGISNDPLGVLSDWTIIGSLRH
CNWTGITCDSTGHVVSVSLLEKQLEGVLSPAIANLTYLQVLDLTSNSFTGKIPAEIGKLT
ELNQLILYLNYFSGSIPSGIWELKNIFYLDLRNNLLSGDVPEEICKTSSLVLIGFDYNNL
TGKIPECLGDLVHLQMFVAAGNHLTGSIPVSIGTLANLTDLDLSGNQLTGKIPRDFGNLL
NLQSLVLTENLLEGDIPAEIGNCSSLVQLELYDNQLTGKIPAELGNLVQLQALRIYKNKL
TSSIPSSLFRLTQLTHLGLSENHLVGPISEEIGFLESLEVLTLHSNNFTGEFPQSITNLR
NLTVLTVGFNNISGELPADLGLLTNLRNLSAHDNLLTGPIPSSISNCTGLKLLDLSHNQM
TGEIPRGFGRMNLTFISIGRNHFTGEIPDDIFNCSNLETLSVADNNLTGTLKPLIGKLQK
LRILQVSYNSLTGPIPREIGNLKDLNILYLHSNGFTGRIPREMSNLTLLQGLRMYSNDLE
GPIPEEMFDMKLLSVLDLSNNKFSGQIPALFSKLESLTYLSLQGNKFNGSIPASLKSLSL
LNTFDISDNLLTGTIPGELLASLKNMQLYLNFSNNLLTGTIPKELGKLEMVQEIDLSNNL
FSGSIPRSLQACKNVFTLDFSQNNLSGHIPDEVFQGMDMIISLNLSRNSFSGEIPQSFGN
MTHLVSLDLSSNNLTGEIPESLANLSTLKHLKLASNNLKGHVPESGVFKNINASDLMGNT
DLCGSKKPLKPCTIKQKSSHFSKRTRVILIILGSAAALLLVLLLVLILTCCKKKEKKIEN
SSESSLPDLDSALKLKRFEPKELEQATDSFNSANIIGSSSLSTVYKGQLEDGTVIAVKVL
NLKEFSAESDKWFYTEAKTLSQLKHRNLVKILGFAWESGKTKALVLPFMENGNLEDTIHG
SAAPIGSLLEKIDLCVHIASGIDYLHSGYGFPIVHCDLKPANILLDSDRVAHVSDFGTAR
ILGFREDGSTTASTSAFEGTIGYLAPEFAYMRKVTTKADVFSFGIIMMELMTKQRPTSLN
DEDSQDMTLRQLVEKSIGNGRKGMVRVLDMELGDSIVSLKQEEAIEDFLKLCLFCTSSRP
EDRPDMNEILTHLMKLRGKANSFREDRNEDREV


Résultats