silico.biotoul.fr
 

TD2 Genome Selection Plantes

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
(Exercice 2 : Définition d'amorces PCR)
(Exercice 2 : Définition d'amorces PCR)
Line 137: Line 137:
sens :    TGATGTCATTTTCGCGGT <br/>
sens :    TGATGTCATTTTCGCGGT <br/>
reverse:  CGCCCTTCGTGAACTTTA <br/>
reverse:  CGCCCTTCGTGAACTTTA <br/>
 +
TCAAGTAGTCGGGGATGTCG
 +
 +
CATGAAATTCGTCGGGGT
 +
TGGTGTAGTCCTCGTTGT
== Exercice 1 : Comparaison de 2 séquences avec une matrice de point (dot plot) ==
== Exercice 1 : Comparaison de 2 séquences avec une matrice de point (dot plot) ==

Revision as of 10:38, 2 December 2022

Contents

Objectifs

Ce TD a pour but de vous familiariser avec les méthodes de comparaison de séquences biologiques, la recherche de séquences similaires (BLAST), la recherche d'ORF dans une séquence et de mettre en application votre savoir-faire.

Quelques liens utiles:

Contexte

Nous resterons dans le contexte scientifique du précédent TD s'intéressant aux chitinases afin de définir si ces enzymes pourraient avoir un intérêt dans des approches de biotechnologie végétale. On s'intéressera ici à identifier une séquence nucléique de chitinase afin de l'introgresser dans un génome végétal sous contrôle de séquences régulatrices adaptées et d'évaluer si cette approche pourrait permettre de favoriser la protection des plantes lors d'une infection microbienne.

Exercice 1 : Recherche d'ORF sur un ARNm

Le criblage d'une banque d'ADNc de l'oomycète a permis très probablement d'identifier la séquence nucléique correspondant à la protéine 'chitinase GH19' travaillée au cours du précédent TD. L'idée est maintenant de vérifier si cette séquence code effectivement pour la protéine 'chitinase-GH19' afin de pouvoir l'insérer sous contrôle de séquences régulatrices adaptées au sein d'une plante d'intérêt.

La séquence obtenue après criblage de la banque d'ADNc est disponible ci-dessous

>Oom_cDNA

ACAACATATCCAGTCACTATGGGGCCCGTCGACCTGCAGACTGGCTGTGTATAAGGGAGC CTGACATTTATATTCCCCAGAACATCAGGTTAATGGCGTTTTTGATGTCATTTTCGCGGT GGCTGAGATCAGCCACTTCTTCCCCGATAACGGAGACCGGCACACTGGCCATATCGGTGG TCATCATGCGCCAGCTTTCATCCCCGATATGCACCACCGGGTAAAGTTCACGCAAGCAAG CAGCCAAATCAGCCTATCAACCCAAGTCAGCCATGAAATTCGTCGGGGTTATCGCGTCAA GTCTTCTGGTTGTGCCTTCTGCGGTCTCTGGTGACGCTGATAGCTCGAGTTTCGCTCGCT TCTTCGATCAGGATCGTTTCCAGGAGGTTTTCCCGGACGCTGTGGAGCTCTACAACTTCA ACGGTCTTGTGGATGCGGCCAGCAAGTACAGCGAATTCGCTAATACGGGCAACGACGACA ATGACAAGCGTGAGCTGGCAGCGTTCCTGGCTCAAACAGCTCACGAGTGCGACAGCTTCA AGGCCGCGGAAGAGTACGCCCGTGACACCTACTCGGTGTGGCAGTACTGCGACAACGCCA CCTACACGTGTGCCCCCGGTCGCCGTTACCACGGCCGTGGCCCCATTCAGCTCTCATGGA ACTACAATTACTACAATGCTGGCGAAGCTCTGGGCATTGATCTCTTAAACAACCCGGACA TCGTCGCGACAGACACGACGGTGACGTGGATGACTGCGCTTTGGTACTGGATGACTCCGC ATGGCGGCCGTGTGATCCACGACATCGTCGCCGGTGAGAACGGATTCGCTCAATCCACCG ATATCATCAACGGTGGTCTGGAGTGCGGTCCGGACGCTCCCAACACGTCGAACGAGCAAC AACGTATCACGTACTTCACCAAGATGTGCGAGGCTCTGGGCGTGGAGCCTCTGGGCGCCA CCTCGTGCAACGCCTAGAGTGGGTATGCATCAAAACAAGTTTTACAAAGTAGTGAATAAG CAAAAAAGACTTTGCTTGTATTTGTGGCAGCTCCCCTTAAACGCCAGCTTTCATCCCCGA TATGCACCACCGGGTAAAGTTCACGAAGGGCGAGGAGGATAACATGGCCATCATCAAGGA GTTCATGCGCTTCAAGGTGCACATGGAGGGCTCCGTGAACGGCCACGAGTTCGAGATCGA GGGCGAGGGCGAGGGCCGCCCCTACGAGGGCACCCAGACCGCCAAGCTGAAGGTGACCAA GGGTGGCCCCCTGCCCTTCGCCTGGGACATCCTGTCCCCTCAGTTCATGTACGGCTCCAA GGCCTACGTGAAGCACCCCGCCGACATCCCCGACTACTTGAAGCTGTCCTTCCCCGAGGG CTTCAAGTGGGAGCGCGTGATGAACTTCGAGGACGGCGGCGTGGTGACCGTGACCCAGGA CTCCTCCCTGCAGGACGGCGAGTTCATCTACAAGGTGAAGCTGCGCGGCACCAACTTCCC CTCCGACGGCCCCGTAATGCAGAAGAAGACTATGGGCTGGGAGGCCTCCTCCGAGCGGAT GTACCCCGAGGACGGCGCCCTGAAGGGCGAGATCAAGCAGAGGCTGAAGCTGAAGGACGG CGGCCACTACGACGCTGAGGTCAAGACCACCTACAAGGCCAAGAAGCCCGTGCAGCTGCC CGGCGCCTACAACGTCAACATCAAGTTGGACATCACCTCCCACAACGAGGACTACACCAT CGTGGAACAGTACGAACGCGCCGAGGGCCGCCACTCCACCGGCGGCATGGACGAGCTGTA CAAGTAA



Afin d'identifier si cette séquence a une similitude avec des séquences déjà répertoriées, nous allons utiliser l'outil BLAST (Basic Local Alignement Search Tool) sur le site du NCBI (colonne de droite :Popular resources => BLAST => Nucleotide BLAST)
!! Avant de lancer votre BLAST, choisissez l'option 'somewhat similar # MEGABLAST (bas de page du BLASTn)'

  • La séquence d'ADNc obtenue est -elle similaire à des séquences référencées dans les banques de données ?
  • A partir de quel organisme a donc été réalisé la banque d'ADNc?
  • Quel est le numéro d'accession de la séquence protéique codée par la séquence ayant une similarité avec votre ADNc ?



Maintenant que vous avez vérifié la qualité et nature de votre séquence ADNc, il est nécessaire d'identifier le cadre de lecture ouvert (ORF). Pour cela, nous allons prédire les différentes ORF possible sur votre séquence en travaillant sur les différents cadre de lecture.

Pour cela nous allons utiliser l'outil ORFfinder disponible au au NCBI. (colonne de gauche > Resources List > Classement par ordre alpahabétique)


Dans les paramètres d'ORFfinder, indiquer 300nt comme taille minimale des ORFs (=100 acide aminés).

  • Interprétez le graphique obtenu
  • Quelle ORF vous paraît être la plus probable ? Pourquoi ?
  • Comment pouvez-vous le vérifier ?
  • Utilisez dans ORF Finder, l'option BLASTp contre la banque de données 'nr (non redundant protein sequences)' et identifiez si l'ORF sélectionnée est la plus probable.

Notez la position de l'ORF (taille, codon start, codon stop, taille attendue de la protéine)


Exercice 2 : Définition d'amorces PCR

Vos analyses précédentes indiquent que votre séquence est correcte, il faut maintenant amplifier la phase ouverte de lecture (ORF) afin de l'insérer dans un vecteur sous contrôle de séquences régulatrices qui permettront son expression après transformation des plantes d'intérêt.

Il faut donc définir des amorces pour faire une PCR.

  • Choix des amorces PCR

A partir de votre séquence d'ADNc, faites une recherche d’amorces PCR avec le programme Primer3 disponible ici. Paramétrez le programme pour sélectionner au mieux la zone que vous voulez amplifier (= la phase ouverte de lecture) en conservant les paramètres par défaut du logiciel
Il faudra définir la zone que vous voulez amplifier dans Targets. Le programme demande : position_début, longueur_de_la_zone.
Exemple: Targets : 40,180 <=> on veut amplifier depuis la position 40 jusqu'à la position 220 (40+180)

  • Quel est le cahier des charges par défaut de la défintions d'amorces PCR avec Primer 3 ?
  • Obtenez vous un couple de primers (amorces) PCR dans la zone d'intérêt ?
  • Pouvez-vous identifiez un couple de primers avec un Tm=55°C comme optimal (min 52, max 60) dans votre zone d'intéret ?

Vous disposez au laboratoire du couple d'amorces ci-dessous, est-il adapté à votre expérience ?

sens : TGATGTCATTTTCGCGGT
reverse: CGCCCTTCGTGAACTTTA
TCAAGTAGTCGGGGATGTCG

CATGAAATTCGTCGGGGT TGGTGTAGTCCTCGTTGT

Exercice 1 : Comparaison de 2 séquences avec une matrice de point (dot plot)

  • Rechercher les 2 séquences enregistrées sous les numéros d'accession P10415 et Q64373
  • Que pouvez vous dire sur ces 2 séquences ?
  • Comparer les séquences deux à deux, en utilisant une matrice de point (dotplot).

Les logiciels sont disponibles dans la suite EMBOSS de la Genopole de Toulouse ou du centre de Bioinformatique des Pays Bas

Utiliser DOTPATH qui permet de dessiner un dotplot avec une taille de mot fixée et visualiser des diagonales 'd'identité'
Faites la même analyse avec DOTMATCHER en gardant les paramètres par défaut, et qui permet de visualiser des diagnonales de 'similarité'
Que pouvez-vous conclure ?

Exercice 2: Comparaison de 2 séquences par alignement global et local : Cas d'Ecole

Voici 2 séquences, au format FASTA :

>prot1

MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVGVLYLYYYHAE GKKAKINEGITQGSHKWVFIEKVDNPVQKLLEFKNRGFQIVATWLSKESVNFREVDYTKP TVLVVGNELQGVSPEIVEIADKKIVIPMYGMAQSLNVSVATGIILYEAQRQREEKGMYSR PSLSEEEIQKILKKWAYEDVIKERKRTLSTS

>prot2

MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVATWLSKESVNF REVDYTKPTVLVVGNELQGVSPEIVEIAVGVLYLYYYHAEGKKAKINEGI

  • Faites un dotplot de ces 2 séquences : qu'observez-vous ?
  • Faites un alignement global (de bout à bout) entre les 2 séquences avec Stretcher disponible sur EMBOSS
Qu'observez vous ?
Combien y a-t-il de gaps ? A quoi correspondent-ils ?
A quoi correspond le pourcentage de similarité ?
Quels sont les paramètres de calcul du score ?
Votre alignement est-il significatif ?
  • Faites un alignement local avec Matcher disponible sur EMBOSS.

NB: dans 'alternative matches' indiquez 10, de façon a visualiser 10 alignements locaux

Qu'observez-vous ?
Regardez les autres alignements locaux. Sont-il significatifs ?

NB: si vous avez besoin de convertir vos séquences au Format Fasta un petit outil bien utile  :ReadSeq

Exercice 3 : Comparaison de plusieurs séquences par alignement multiple

L'idée maintenant est de comparer plusieurs séquences similaires entre elles, afin par exemple d'en définir les liens évolutifs ou d'identifier des 'zones' (motifs/domaines) conservés pouvant décrire la famille protéique

  • Dans la banque de données UniProt/SwissProt au NCBI, identifiez les séquences protéiques "THAP" de l'homme, la souris, le poulet et le zebrafish. Eliminez les séquences isoformes 2 et 3.
  • Récupérez l'ensemble des séquences dans un fichier au format Fasta
  • Réalisez un alignement de l'ensemble des séquences (=alignement multiple) en utilisant Clustal Omega disponible a l'EBI (>Services)
  • Trouvez-vous des 'zones similaires' (=domaines) à l'ensemble de ces séquences.

NB : Le motif 'AVPTIF' marque une partie du domaine : le trouvez-vous sur toutes les séquences ?

Nous allons maintenant essayer de construire un pattern/signature caractéristique de cette famille de protéine en sebasant sur les 'zones similaires' préalablement identifiées

  • Construire une signature PROSITE à partir de votre alignement (n'utilisez pas le LOGO, sinon vous ne voyez pas précisément les zones de gap)
   Voici l'exemple d'un début d'une signature (ou pattern) : Q-L-x(3)-P-x(6)-[FY]-x(2)-V-x(3)-[LVF]-[FGD]-x(2,8)-[GPS]

Comment lire cette signature ?

    Q-L : il n'y a que les acides aminés Q puis L dans 2 colonnes successives de l'alignement 
x(3) : 3 colonnes avec des acides aminés variables
[FY] : dans cette colonne seuls les acides aminés F ou Y sont présents
x(2,8) : zone avec un gap. Entre 2 et 8 résidus (acides aminés) quelconques, suivant les séquences
  • Tester la spécificité de votre signature sur ScanProsite (choisir l'option 2) contre SwissProt ou trEMBL (plus long !)

Mise en application...

Au laboratoire, vous êtes amenés a travailler sur la séquence ci-dessous:

>seq1

attggcaacctgaaagatctgaacattctgtatctgcatagcaacggctttaccggccgc attccgcgcgaaatgagcaacctgaccctggcgaacctgaccgatctggatctgagcggc aaccagctgaccggcaaaattccgcgcgattttgcggcgctgctgctggtgctgctggaa aaaaaaattgaaaacattacctgcgatagcatgaaactgctgagcaaaacctttctgatt ctgaccctgaccttttttttttttggcattgcgctggcgaaacagagctttgaaccggaa attgaagcgctgaaaagctttaaaaacggcattagcaacgatccgctgggcgtgctgagc gattggaccattattggcagcctgcgccattgcaactggaccggcattacctgcgatagc accggccatgtggtgagcgtgagcctgctggaaaaacagctggaaggcgtgctgagcccg gcgattgcgaacctgacctatctgcaggtgctggatctgaccagcaacagctttaccggc aaaattccggcggaaattggcaaactgaccgaactgaaccagctgattctgtatctgaac tattttagcggcagcattccgagcggcatttgggaactgaaaaacattttttatctggat ctgcgcaacaacctgctgagcggcgatgtgccggaagaaatttgcaaaaccagcagcctg gtgctgattggctttgattataacaacctgaccggcaaaattccggaatgcctgggcgat ctggtgcatctgcagatgtttgtggcggcgggcaaccatctgaccggcagcattccggtg agcattggcaccctggcgaacctgaccgatctggatctgagcggcaaccagctgaccggc aaaattccgcgcgattttggcaacctgctgaacctgcagagcctggtgctgaccgaaaac ctgctggaaggcgatattccggcggaaattggcaactgcagcagcctggtgcagctggaa ctgtatgataaccagctgaccggcaaaattccggcggaactgggcaacctggtgcagctg caggcgctgcgcatttataaaaacaaactgaccagcagcattccgagcagcctgtttcgc ctgacccagctgacccatctgggcctgagcgaaaaccatctggtgggcccgattagcgaa gaaattggctttctggaaagcctggaagtgctgaccctgcatagcaacaactttaccggc gaatttccgcagagcattaccaacctgcgcaacctgaccgtgctgaccgtgggctttaac aacattagcggcgaactgccggcggatctgggcctgctgaccaacctgcgcaacctgagc gcgcatgataacctgctgaccggcccgattccgagcagcattagcaactgcaccggcctg aaactgctggatctgagccataaccagatgaccggcgaaattccgcgcggctttggccgc atgaacctgacctttattagcattggccgcaaccattttaccggcgaaattccggatgat atttttaactgcagcaacctggaaaccctgagcgtggcggataacaacctgaccggcacc ctgaaaccgctgattggcaaactgcagaaactgcgcattctgcaggtgagctataacagc ctgaccggcccgattccgcgcgaaattggcaacctgaaagatctgaacattctgtatctg catagcaacggctttaccggccgcattccgcgcgaaatgagcaacctgaccctgctgcag ggcctgcgcatgtatagcaacgatctggaaggcccgattccggaagaaatgtttgatatg aaactgctgagcgtgctggatctgagcaacaacaaatttagcggccagattccggcgctg tttagcaaactggaaagcctgacctatctgagcctgcagggcaacaaatttaacggcagc attccggcgagcctgaaaagcctgagcctgctgaacacctttgatattagcgataacctg ctgaccggcaccattccgggcgaactgctggcgagcctgaaaaacatgcagctgtatctg aactttagcaacaacctgctgaccggcaccattccgaaagaactgggcaaactggaaatg gtgcaggaaattgatctgagcaacaacctgtttagcggcagcattccgcgcagcctgcag gcgtgcaaaaacgtgtttaccctggattttagccagaacaacctgagcggccatattccg gatgaagtgtttcagggcatggatatgattattagcctgaacctgagccgcaacagcttt agcggcgaaattccgcagagctttggcaacatgacccatctggtgagcctggatctgagc agcaacaacctgaccggcgaaattccggaaagcctggcgaacctgagcaccctgaaacat ctgaaactggcgagcaacaacctgaaaggccatgtgccggaaagcggcgtgtttaaaaac attaacgcgagcgatctgatgggcaacaccgatctgtgcggcagcaaaaaaccgctgaaa ccgtgcaccattaaacagaaaagcagccattttagcaaacgcacccgcgtgattctgatt attctgggcagcgcggcggcgctgctgctggtgctgctgctggtgctgattctgacctgc tgcaaaaaaaaagaaaaaaaaattgaaaacagcagcgaaagcagcctgccggatctggat agcgcgctgaaactgaaacgctttgaaccgaaagaactggaacaggcgaccgatagcttt aacagcgcgaacattattggcagcagcagcctgagcaccgtgtataaaggccagctggaa gatggcaccgtgattgcggtgaaagtgctgaacctgaaagaatttagcgcggaaagcgat aaatggttttataccgaagcgaaaaccctgagccagctgaaacatcgcaacctggtgaaa attctgggctttgcgtgggaaagcggcaaaaccaaagcgctggtgctgccgtttatggaa aacggcaacctggaagataccattcatggcagcgcggcgccgattggcagcctgctggaa aaaattgatctgtgcgtgcatattgcgagcggcattgattatctgcatagcggctatggc tttccgattgtgcattgcgatctgaaaccggcgaacattctgctggatagcgatcgcgtg gcgcatgtgagcgattttggcaccgcgcgcattctgggctttcgcgaagatggcagcacc accgcgagcaccagcgcgtttgaaggcaccattggctatctggcgccggaatttgcgtat atgcgcaaagtgaccaccaaagcggatgtgtttagctttggcattattatgatggaactg atgaccaaacagcgcccgaccagcctgaacgatgaagatagccaggatatgaccctgcgc cagctggtggaaaaaagcattggcaacggccgcaaaggcatggtgcgcgtgctggatatg gaactgggcgatagcattgtgagcctgaaacaggaagaagcgattgaagattttctgaaa ctgtgcctgttttgcaccagcagccgcccggaagatcgcccggatatgaacgaaattctg acccatctgatgaaactgcgcggcaaagcgaacagctttcgcgaagatcgcaacgaagat cgcgaagtg


Répondez aux questions suivantes:

  • a quel organisme appartient cette séquence ?
  • cette séquence est-elle codante ?
  • quelle est le numéro d'accession de cette protéine, de l'ARNm, du gène ?
  • existe-il des orthologues a cette protéine ?
  • que veut dire db_xref=CDD:173623 sur la fiche GenPept?
  • quelle est la fonction putative de cette protéine ?
  • exite-t-il des domaines conservés dans cette protéine?