silico.biotoul.fr
 

TD1 Genome Selection Plantes

From silico.biotoul.fr

Revision as of 16:28, 22 November 2022 by Gaulin (Talk | contribs)
Jump to: navigation, search

Contents

Objectifs

Ce TD a pour but de vous familiariser avec la recherche d'informations scientifiques disponibles dans les banques de données biologiques (Database) et des outils permettant d'analyser ces séquences nucléiques et/ou protéiques afin de pouvoir les utiliser dans une approche expérimentale.

Globalement les informations sont regroupées dans 2 centres :

  • NCBI National Center for Biotechnology Information (NIH, USA)
  • EBI European Bioinformatics Institute (EMBL, GB)

Pour l'analyse de séquences biologiques, la suite de logiciel EMBOSS est disponible

Contexte Scientifique

Les chitinases sont des enzymes capable de dégrader la chitine présentent notamment dans les parois des microorganismes fongiques. Au cours du TP, on précisera dans quels organismes ces enzymes sont détectées, leur ressemblance (homologie), leur organisation structurale (domaines protéiques), l'intérêt à les utiliser dans des approches de biotechnologie végétale.

Exercice 1 : Recherche dans les banques de données par numéro d'accession ou mots clés (EBI & NCBI)

1/ Aller sur le site de EBI - European Bioinformatics Institute

  • rechercher Uniprot (Services (onglet haut de Page)> Sequences Analysis and Web Services> AvailableDataBases(colonne gauche)>Uniprot)
  • qu'est ce que Uniprot ?
  • combien de séquences sont référencées dans TrEMBL ?
  • combien de séquences sont référencées dans Uniprot/swissProt ?

2/Sur le site d' UniProt : chercher la séquence dont le numéro d'accession est A0A8K1C767.

  • de quelle protéine s'agit-il ? chez quel organisme ?
  • quelle est la taille de cette séquence ?
  • y a-t-il des preuves expérimentales de l'existence de cette protéine ?
  • est-elle dans UniProt-trEMBL ou UniProt-SwissProt ?


3/Aller sur le site du NCBI: identifiez

  • toutes les séquences des champignons du genre Fusarium, combien sont-elles ?
  • les séquences protéiques de Fusarium oxysporum présentant une activité chitinase
  • combien de séquences sont répertoriées dans la souche Fo47 ?

Pour cela sur le site du NCBI sélectionnez les banques "protéines", puis dans la barre de requête il est possible de combiner plusieurs termes à l'aide des opérateurs booléens (AND, OR, NOT) puis l'option Advanced (sous la barre de requête) et le bouton Preview, en précisant les champs, Organism, Title... à l'aide de l'outil Search builder et conjuguer vos requêtes. L'historique de vos requêtes est visible.


4/On s'intéresse maintenant à la séquence dont le numéro d'accession est EWZ38715

Regardez la fiche de la séquence correspondante :

  • quel est le nom de cette protéine ?
  • quel le nombre d'acides aminés constituant cette protéine ?
  • cette protéine contient-elle différents domaines fonctionnels ? Lesquels ?
  • définissez l'architecture de cette protéine
  • affichez votre séquence protéique au format FASTA (haute de page>FASTA). Qu'est ce que le format FASTA ?

Exercice 2 : Analyse d'une séquence protéique, recherche de domaines fonctionnels

Afin d'appréhender plus finement l'organisation structurale et la localisation cellulaire de la protéine de Pythium oligandrum (A0A8K1C767), vous allez recherchez les domaines 'fonctionnels' prédits sur la séquence ainsi que des motifs pouvant indiquer la localisation subcellulaire de la protéine

Sur le site de l'EMBL, utiliser le logiciel d'analyse de séquence protéique InterPro pour chercher si la séquence protéique de Pythium oligandrum contient des domaines fonctionnels connus.

  • Notez les positions et le nom des domaines PFAM identifiés sur cette protéine
  • Trouvez-vous la même chose avec les domaines IPR ?
  • Cette protéine présente-t-elle des régions pouvant suggérer sa localisation subcellulaire ?

NB: Gardez à l'écran le résultat InterPro pour la suite du TP

  • via 'PFAM', préciser l'activité 'Chitinase I / GH19' (cliquez sur numero d'accession PFAM Chitinase I /GH19)
  • identifiez les espèces qui présentant des domaines de type GH19.
  • combien de protéines à domaine GH19 sont recensées actuellement ?
  • la structure 3D de ce domaine protéique est-elle connue ?


Exercice 3 : Comparaison de 2 séquences protéiques par Dot Plot

Afin d'observer la ressemblance entre la séquence de chitinase de Pythium oligandrum (A0A8K1C767) et de Fusarium oxysporum (EWZ38715), nous allons les comparer par 'Dot Plot'

  • dans la suite de logiciel dédiée a l'analyse de séquence EMBOSS, identifier l'outil 'DOT MATCHER'
  • comparer vos séquences en DOT-MATCHER
  • que pouvez-conclure ?

Exercice 4 : Comparaison de 2 séquences protéiques par Alignement de Séquences

Afin d'observer la ressemblance entre la séquence de chitinase de Pythium oligandrum (A0A8K1C767) et de Fusarium oxysporum (EWZ38715), nous allons les comparer par 'Alignement de Séquences' en utilisant des logiciels disponibles dans Needle

Dans un premier temps nous allons comparer les 2 séquences sur toute leur longueur (du 1er au dernier résidu) = Méthode d'alignement GLOBAL

  • avec le logiciel STRETCHER, réalisez l'alignement entre la séquence de P oligandrum et de F oxysporum
  • quel résultat pouvez vous anticipez ?

Dans un second temps, identifiez si il existe entre les 2 séquences des régions similaires = Méthode d'alignement LOCAL

  • avec le logiciel MATCHER, comparez vos 2 séquences. Indiquez le chiffre 5 dans le paramètres 'Number of Alternatives Matches'
  • que pensez-vous du résultat ?


ANNEXES

>EWZ38715_Fusarium_oxysporum

MRVSTLLGLSAYAVAEASCSRNIIYYDQWHTNDLPPKDVTHSVTHVMMSFANSSLFTTEPSGKYEPFQPL KQVRALFDHDIKVCLAIGGWGDNAGFDAGLKTDRSRERFARNVASTLDRLGYDCVDIDMEYPGGNGADYK QVVNSKKTYEIQAFPKLLKEIKKFIGSKELSIAVPGLERDMIAYIPSETPLIEKSVDFVNVMTYDLMNRR DSYTTHHVSVKGAARAIDKYLSLGFPAHKLVLGIPFYAKWFTTKQGYKCTNPIGCPTELLENPKDGSDTG KSGSMTFEAANFVSAPTNLTTTPDATCGAGTFFKCATGGCCAASGWCGDTAAHCGTGCQSAYGHCDGIDL SASFHEALDKGKTDKVNGGQWYWDAPNRIFWSWDTPELIAEKINLLAKTRGVKSVMAWALALDSHDWSHL KAMQQGFDRVNA

>A0A8K1C767_Pythium_oligandrum

MKNAQVLVALACATFAAEQVSAGYVYVGSTGDKAAMTQWCNWNCPGFCPGDMCKQEGGAPAPAPGPAPIVPAVNPAPAPA PGPAPAPAPAPAPAAGGSGFGKYLDEGKFKQLFPESIPLYTFAGLVDAAKKYPSFANTGNEVNDKRELAAFLAQTSHECD HYKAAEEYAKDTFPESQYCNAGQVPCAAGHRYHGRGPIQLSWNYNYKAAGDAIGVDLLNKPELVGTDKTVTWQTALWYWM TPQGGKGVIHDIVANDFAQSTNIINGGLECGGPSKNNELQRIEYYKKICATLGVEPVAKVSCN

Exercice 2 : Recherche dans les banques via une séquence (protéique ou nucléique): l'outil BLAST

Ci-dessous une séquence protéique inconnue au format FASTA

>sequence_proteique_inconnue
HAILRLDLAGRDLTDHSSSILTERGYSQTTTAEREIVRDMKEKVSYIALDYEQELETSKTAAAVEKSFELPDGQVITIGVERFRCPEVLFQPSMIGMENPGIHETTYNSI

  • Afin de savoir si cette séquence est répertoriée dans les bases de données faites un BLAST au NCBI.
  • Quel type de 'Blast' choisissez-vous ? Faites un Blast contre la banque de données UniprotKB/SwissProt
  • A quoi correspond la E-value ?

Regardez un alignement entre votre séquence requête appelée QUERY et la séquence présentant une homologie et répertoriée dans les banques de données (SUBJECT)

  • Qu'indique les signe '+' et ' rien ' dans la ligne intermédiaire de l'alignement ?
  • Votre séquence QUERY présente-elle des similarités avec d'autres séquences ? Si oui, sur quelle partie ?


Ci-dessous une séquence nucléique inconnue au format FASTA

>sequence_nucleique_inconnue

GGCAACTTCAACTGGGGCCGGGTGGTTGCCCTTTTCTACTTTGCTAGCAAACTGGTGCTCAAGGCCCTGTGCACTAAAGTGCCCGAGCTGATCAG AACCATCATGGGCTGGACACTGGACTTCCTCCGGGAGCGGCTGCTTGTCTGGATCCAAGACCAGGGTGGC TGGGATGGCCTCCTTTCCTACTTCGGGACCCCCACATGGCAGACAGTGACCATCTTTGTGGCTGGAGTCC TCACTGCCTCACTCACCATCTGGAAGAAGATGGGCTGAGGCTTCCTGCTGCCTTGGACTGTGTCTTTTCT TCATAAATTATGACATTTTTCCTGGGATGAATGGGGAACGGGGAAAGGCATTTTCCCCGTGAGGGCCGCACGTCTGCTCTTACTTTTGTAATT ATTGGGAGGGGTGGGAATGGTGGCCTGGGGGAGGTGCCAATAAACCTCAGGTCCA

  • Quelle est la nature (ADN, ARN..) de cette séquence ?
  • Est-elle répertoriée dans les bases de données ?
  • Présente-elle des similarités avec d'autres séquences ?

Visualisez un alignement entre votre séquence QUERY et une séquence répertoriée dans la base de donnée

  • Sur quel brin cette séquence inconnue présente-elle une homologie ?
  • Que représente les signes '--------' rencontrés sur certaines séquences ?


Exercice 3 : Recherche d'ORF dans une séquence nucléique

Il existe des outils pour déterminer les phases ouvertes de lecture (OpenReadingFrame ORF) dans une séquence nucléique. Vous disposez , en cliquant sur ce lien, d'une séquence 'BCL2' issue du séquençage d'un fragment nucléique humain. Vous allez vérifier que ce fragment est codant en recherchant les cadres ouverts de lecture présents, et en identifiant l'ORF la plus probable.

Utilisez le programme ORF Finder au NCBI pour effectuer la recherche de séquence codante (ALLResources>Resources List A-Z>ORFfinder (colonne gauche).

 Paramétrez le logiciel avec : Minimal ORF length (nt): 300  / ORF start codon to use: ATG 
  • Interprétez le graphique et les résultats obtenus.
  • Quelle est la position de l'ORF la plus probable ?


Afin de valider votre hypothèse quant à l'ORF la plus probable, il est nécessaire d'aller identifier dans les banques de données si cette ORF code pour la protéine Bcl2. Pour cela vous allez réaliser un BlastP

  • Dans ORF Finder, utilisez l'option Blastp sur la banque Uniprot/swissProt. Que concluez-vous ?
  • Quel est le numéro d'accession de la protéine BCL2 dans Uniprot/SwissProt ?

Mise en Application

Vous diposez de la séquence ci-dessous

>seq1

attggcaacctgaaagatctgaacattctgtatctgcatagcaacggctttaccggccgc attccgcgcgaaatgagcaacctgaccctggcgaacctgaccgatctggatctgagcggc aaccagctgaccggcaaaattccgcgcgattttgcggcgctgctgctggtgctgctggaa aaaaaaattgaaaacattacctgcgatagcatgaaactgctgagcaaaacctttctgatt ctgaccctgaccttttttttttttggcattgcgctggcgaaacagagctttgaaccggaa attgaagcgctgaaaagctttaaaaacggcattagcaacgatccgctgggcgtgctgagc gattggaccattattggcagcctgcgccattgcaactggaccggcattacctgcgatagc accggccatgtggtgagcgtgagcctgctggaaaaacagctggaaggcgtgctgagcccg gcgattgcgaacctgacctatctgcaggtgctggatctgaccagcaacagctttaccggc aaaattccggcggaaattggcaaactgaccgaactgaaccagctgattctgtatctgaac tattttagcggcagcattccgagcggcatttgggaactgaaaaacattttttatctggat ctgcgcaacaacctgctgagcggcgatgtgccggaagaaatttgcaaaaccagcagcctg gtgctgattggctttgattataacaacctgaccggcaaaattccggaatgcctgggcgat ctggtgcatctgcagatgtttgtggcggcgggcaaccatctgaccggcagcattccggtg agcattggcaccctggcgaacctgaccgatctggatctgagcggcaaccagctgaccggc aaaattccgcgcgattttggcaacctgctgaacctgcagagcctggtgctgaccgaaaac ctgctggaaggcgatattccggcggaaattggcaactgcagcagcctggtgcagctggaa ctgtatgataaccagctgaccggcaaaattccggcggaactgggcaacctggtgcagctg caggcgctgcgcatttataaaaacaaactgaccagcagcattccgagcagcctgtttcgc ctgacccagctgacccatctgggcctgagcgaaaaccatctggtgggcccgattagcgaa gaaattggctttctggaaagcctggaagtgctgaccctgcatagcaacaactttaccggc gaatttccgcagagcattaccaacctgcgcaacctgaccgtgctgaccgtgggctttaac aacattagcggcgaactgccggcggatctgggcctgctgaccaacctgcgcaacctgagc gcgcatgataacctgctgaccggcccgattccgagcagcattagcaactgcaccggcctg aaactgctggatctgagccataaccagatgaccggcgaaattccgcgcggctttggccgc atgaacctgacctttattagcattggccgcaaccattttaccggcgaaattccggatgat atttttaactgcagcaacctggaaaccctgagcgtggcggataacaacctgaccggcacc ctgaaaccgctgattggcaaactgcagaaactgcgcattctgcaggtgagctataacagc ctgaccggcccgattccgcgcgaaattggcaacctgaaagatctgaacattctgtatctg catagcaacggctttaccggccgcattccgcgcgaaatgagcaacctgaccctgctgcag ggcctgcgcatgtatagcaacgatctggaaggcccgattccggaagaaatgtttgatatg aaactgctgagcgtgctggatctgagcaacaacaaatttagcggccagattccggcgctg tttagcaaactggaaagcctgacctatctgagcctgcagggcaacaaatttaacggcagc attccggcgagcctgaaaagcctgagcctgctgaacacctttgatattagcgataacctg ctgaccggcaccattccgggcgaactgctggcgagcctgaaaaacatgcagctgtatctg aactttagcaacaacctgctgaccggcaccattccgaaagaactgggcaaactggaaatg gtgcaggaaattgatctgagcaacaacctgtttagcggcagcattccgcgcagcctgcag gcgtgcaaaaacgtgtttaccctggattttagccagaacaacctgagcggccatattccg gatgaagtgtttcagggcatggatatgattattagcctgaacctgagccgcaacagcttt agcggcgaaattccgcagagctttggcaacatgacccatctggtgagcctggatctgagc agcaacaacctgaccggcgaaattccggaaagcctggcgaacctgagcaccctgaaacat ctgaaactggcgagcaacaacctgaaaggccatgtgccggaaagcggcgtgtttaaaaac attaacgcgagcgatctgatgggcaacaccgatctgtgcggcagcaaaaaaccgctgaaa ccgtgcaccattaaacagaaaagcagccattttagcaaacgcacccgcgtgattctgatt attctgggcagcgcggcggcgctgctgctggtgctgctgctggtgctgattctgacctgc tgcaaaaaaaaagaaaaaaaaattgaaaacagcagcgaaagcagcctgccggatctggat agcgcgctgaaactgaaacgctttgaaccgaaagaactggaacaggcgaccgatagcttt aacagcgcgaacattattggcagcagcagcctgagcaccgtgtataaaggccagctggaa gatggcaccgtgattgcggtgaaagtgctgaacctgaaagaatttagcgcggaaagcgat aaatggttttataccgaagcgaaaaccctgagccagctgaaacatcgcaacctggtgaaa attctgggctttgcgtgggaaagcggcaaaaccaaagcgctggtgctgccgtttatggaa aacggcaacctggaagataccattcatggcagcgcggcgccgattggcagcctgctggaa aaaattgatctgtgcgtgcatattgcgagcggcattgattatctgcatagcggctatggc tttccgattgtgcattgcgatctgaaaccggcgaacattctgctggatagcgatcgcgtg gcgcatgtgagcgattttggcaccgcgcgcattctgggctttcgcgaagatggcagcacc accgcgagcaccagcgcgtttgaaggcaccattggctatctggcgccggaatttgcgtat atgcgcaaagtgaccaccaaagcggatgtgtttagctttggcattattatgatggaactg atgaccaaacagcgcccgaccagcctgaacgatgaagatagccaggatatgaccctgcgc cagctggtggaaaaaagcattggcaacggccgcaaaggcatggtgcgcgtgctggatatg gaactgggcgatagcattgtgagcctgaaacaggaagaagcgattgaagattttctgaaa ctgtgcctgttttgcaccagcagccgcccggaagatcgcccggatatgaacgaaattctg acccatctgatgaaactgcgcggcaaagcgaacagctttcgcgaagatcgcaacgaagat cgcgaagtg


Répondez aux questions suivantes:

  • A quel organisme appartient cette séquence ?
  • cette séquence est-elle codante ?
  • quelle est le numéro d'accession de cette protéine, de l'ARNm, du gène ?
  • quelle est la fonction putative de cette protéine ?