InfoBio TD Sequences et banques de donnees
From silico.biotoul.fr
m (→Recherche dans les banques via l'utilisation d'une séquence connue dont l'identifiant est connu) |
m (→Recherche dans les banques via l'utilisation d'une séquence dont l'identifiant est connu) |
||
(9 intermediate revisions not shown) | |||
Line 1: | Line 1: | ||
+ | <!-- | ||
Ci-dessous une sélection de sites Internet locaux, nationaux, européens et internationaux très utiles en biologie et bioinformatique. | Ci-dessous une sélection de sites Internet locaux, nationaux, européens et internationaux très utiles en biologie et bioinformatique. | ||
Line 7: | Line 8: | ||
* [http://pbil.univ-lyon1.fr/ PBIL] Pôle Bio-Informatique Lyonnais (CNRS, Lyon) | * [http://pbil.univ-lyon1.fr/ PBIL] Pôle Bio-Informatique Lyonnais (CNRS, Lyon) | ||
* [http://bioweb.pasteur.fr/ Institut Pasteur] | * [http://bioweb.pasteur.fr/ Institut Pasteur] | ||
+ | --> | ||
- | = | + | = Quelques ressources disponibles = |
- | + | Vous allez utiliser le site du NCBI. Ce portail évolue plus ou moins souvent à mesure que les données et méthodes sont disponibles ainsi que les technologies Web. | |
- | Ce site regroupe des banques de données publiques (ex: banques de séquences nucléiques ou protéiques, banques de structures, ...), et | + | Ce site regroupe des banques de données publiques (ex: banques de séquences nucléiques ou protéiques, banques de structures, ...), et met à disposition des outils mettant en oeuvre des méthodes bioformatiques (recherche de séquences par similarité, ...). Nous allons dans un premier temps nous intéresser aux banques mises à disposition. |
- | + | Un moteur de recherche sur l'ensemble des banques disponibles est disponible : http://www.ncbi.nlm.nih.gov/gquery | |
- | * PubMed | + | |
+ | Parmi celles disponibles, remarquez les suivantes : | ||
+ | * PubMed | ||
* OMIM | * OMIM | ||
- | * Nucleotide | + | * Nucleotide |
- | + | ||
* Genome | * Genome | ||
- | * | + | * dbVar |
- | + | ||
* SNP | * SNP | ||
- | * | + | * Taxonomy |
+ | * Gene | ||
+ | * GEO | ||
+ | * Conserved Domains | ||
+ | * Protein | ||
+ | * Structure | ||
'''''A quoi correspondent ces banques ?''''' | '''''A quoi correspondent ces banques ?''''' | ||
+ | On s'intéresse au génome humain (qui a été publié en 2001). | ||
+ | |||
+ | Dans quelle(s) banque(s) effectuer des recherches pour connaître | ||
+ | * sa taille | ||
+ | * la séquence des chromosomes | ||
+ | * le nombre de gènes | ||
+ | * le nombre de protéines | ||
+ | |||
+ | '''Retrouvez''' le dernier assemblage des différentes séquences obtenues publié par le GRC (Genome Reference Consortium). De quand date-t-il ? | ||
+ | |||
+ | * '''Quelle est la taille du génome humain ?''' | ||
+ | * Quelle est l'unité de mesure utilisée ? | ||
+ | * Combien y a-t-il de chromosomes chez cette espèce ? | ||
+ | |||
+ | * Quelle est la lignée pour cet organisme (au delà de genre espèce) ? l'identifiant taxonomique de l'espèce ? le code génétique utilisé ? le codon initiateur de la traduction ? | ||
+ | |||
+ | * Quelle est la taille du chromosome 7 ? Combien arbore-t-il de gènes ? de protéines ? Comment expliquer la différence ? | ||
+ | |||
+ | '''Suivez''' le lien pour aller sur la fiche de la séquence du chromosome 7. | ||
+ | * Comment s'organise cette fiche ? | ||
+ | * Dans quel journal est paru le premier article référencé sur la fiche ? | ||
+ | * Sous quel numéro cet article est-il référencé dans PubMed ? | ||
+ | * Est-ce que la séquence complète du chromosome est disponible ? Qu'est-ce qu'un ''contig'' ? à quelle version en est-on ? | ||
+ | |||
+ | * En suivant le lien à droite (''Related inforation'') vers Gene, combien de gènes seraient sur le chromosome 7 ? Cela correspond-il à ce que vous aviez noté précédemment ? | ||
+ | |||
+ | |||
+ | |||
+ | Nous allons nous intéresser à la mucoviscidose (mucoviscidosis) chez l'humain. | ||
+ | |||
+ | '''''Dans quelle banque effectuer une recherche pour avoir des informations sur cette maladie génétique ?''''' | ||
+ | |||
+ | '''Retrouvez''' la fiche correspondante. | ||
+ | * Quelle est l'identifiant de cette maladie ? | ||
+ | * Quelle(s) région(s) chromosomique(s) lui sont associées ? | ||
+ | * Quels sont les informations cliniques disponibles ? | ||
+ | * Quels gènes sont associés à cette maladie ? | ||
+ | * Comment est transmise cette maladie ? | ||
+ | * Quelle est sa prévalence ? | ||
+ | * Existe-t-il des modèles animaux pour cette maladie ? | ||
+ | * Y a-t-il des articles scientifiques relatifs à cette maladie ? combien sont référencés ? | ||
+ | |||
+ | A partir du menu de droite dans la section ''External links for entry'', suivez le lien vers ''Protein''. | ||
+ | * Sur quelle banque arrivez-vous ? | ||
+ | * Quelle est son identifiant dans cette banque ? | ||
+ | * Faire afficher la fiche au format texte ? | ||
+ | * Comment s'organise cette fiche ? | ||
+ | * A quoi correspondent les lignes CC, DR, FT, SQ ? | ||
+ | * Revenez à l'affichage précédent. | ||
+ | * Quelles sont les fonctions moléculaires connues de cette protéine ? Comment sont-elles référencées ? | ||
+ | * Est-ce que cette protéine est connue pour interagir avec d'autres ? | ||
+ | * Suivez le lien allant vers la banque de données STRING. A quoi correspondent les interactions affichées ? | ||
+ | * Utilisez les vues ''Occurence'', ''Coexpression'' et ''Database''. Affichez les information concernant KEGG et suivez le lien ''link out KEGG''. Sur quel type de carte arrivez-vous ? | ||
+ | * Sur ce site, naviguez pour visualiser la voie métabolique de la ''glycolyse''. | ||
+ | * Quelle est la formule du phosphoenol-pyruvate ? | ||
+ | * A quoi correspond le code 2.7.1.40 ? | ||
+ | * Quelle(s) enzyme(s) chez l'homme catalyse(nt) la réaction phosphoenol-pyruvate -> pyruvate ? | ||
+ | * Revenez sur la fiche de la protéine. Quelle est sa taille ? Quelle est l'unité de mesure utilisée ? | ||
+ | * Retrouvez la séquence de l'ARNm correspondant. Quel est son identifiant ? Sa taille ? | ||
+ | * Affichez sa séquence au format FASTA. | ||
+ | * Combien de domaines protéiques arbore cette séquence ? | ||
+ | * Affichez l'architecture en domaines de cette séquence en utilisant InterPro. | ||
+ | * Affichez les informations sur le domaine ATPase. Affichez les informations provenant de la banque de données SMART. | ||
+ | * Ce domaine est-il présent dans beaucoup de protéines ? | ||
+ | |||
+ | |||
+ | = Quantité de données disponibles = | ||
+ | * Trouvez le site ''Genomes Online Database''. A partir de celui-ci, déterminez combien de génomes complets sont disponibles ; côté procaryote ? côté eucaryote ? | ||
+ | * A partir de ce que vous avez vu au cours de la séance, déterminez le nombre de séquences nucléiques actuellement disponibles ainsi que le nombre de séquences protéiques. | ||
+ | * Chaque année la revue scientifique ''Nucleic Acids Research'' édite un numéro spécial présentant une sélection de banques de données et met à disposition une base de données de banques de données ! Retrouvez combien de banques sont recensées. | ||
+ | |||
+ | |||
+ | = Recherche dans les banques via l'utilisation d'une séquence dont l'identifiant est connu = | ||
+ | |||
+ | '''1°)''' Récupérez la séquence Q6Q475 | ||
+ | * de quelle type de séquence s'agit-il ? | ||
+ | * à quel organisme appartient-elle ? | ||
+ | * quelle est la fonction de Q6Q475 ? | ||
+ | * dans quelle banque cette séquence est-elle déposée ? | ||
+ | * retrouvez cette séquence sur le site UniProt. | ||
+ | * retrouvez la séquence nucléique codant cette protéine. | ||
+ | * affichez la séquence au format FASTA. | ||
+ | * à l'aide des outils fournis dans la suite [[silico:emboss|EMBOSS]], faites une traduction automatique de la séquence nucléique en séquence protéique. | ||
+ | * faites l'opération inverse : de la séquence protéique à la séquence nucléique. | ||
+ | * comparez la séquence nucléique obtenue à l'étape précédente avec la séquence nucléique originale. Observez-vous des différences ? | ||
+ | |||
+ | <!-- | ||
= Recherche dans les banques ''via'' l'utilisation de mots-clés = | = Recherche dans les banques ''via'' l'utilisation de mots-clés = | ||
'''Remarque :''' Lorsque plusieurs termes sont recherchés, il est possible de les combiner à l'aide des opérateurs booléens (AND, OR, NOT) | '''Remarque :''' Lorsque plusieurs termes sont recherchés, il est possible de les combiner à l'aide des opérateurs booléens (AND, OR, NOT) | ||
- | + | ''' Sur le serveur du NCBI, <u>identifiez</u>: | |
* toutes les séquences de l'oomycète ''Phytophthora'' (parasite de la pomme de terre), combien sont-elles ? | * toutes les séquences de l'oomycète ''Phytophthora'' (parasite de la pomme de terre), combien sont-elles ? | ||
* les séquences protéiques de ''Phytophthora parasitica'' correspondant à des éliciteurs (molécules capables d'induire les réponses immunitaires chez les végétaux). | * les séquences protéiques de ''Phytophthora parasitica'' correspondant à des éliciteurs (molécules capables d'induire les réponses immunitaires chez les végétaux). | ||
Line 69: | Line 163: | ||
- | + | --> | |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + |
Current revision as of 14:11, 5 February 2015
Quelques ressources disponibles
Vous allez utiliser le site du NCBI. Ce portail évolue plus ou moins souvent à mesure que les données et méthodes sont disponibles ainsi que les technologies Web.
Ce site regroupe des banques de données publiques (ex: banques de séquences nucléiques ou protéiques, banques de structures, ...), et met à disposition des outils mettant en oeuvre des méthodes bioformatiques (recherche de séquences par similarité, ...). Nous allons dans un premier temps nous intéresser aux banques mises à disposition.
Un moteur de recherche sur l'ensemble des banques disponibles est disponible : http://www.ncbi.nlm.nih.gov/gquery
Parmi celles disponibles, remarquez les suivantes :
- PubMed
- OMIM
- Nucleotide
- Genome
- dbVar
- SNP
- Taxonomy
- Gene
- GEO
- Conserved Domains
- Protein
- Structure
A quoi correspondent ces banques ?
On s'intéresse au génome humain (qui a été publié en 2001).
Dans quelle(s) banque(s) effectuer des recherches pour connaître
- sa taille
- la séquence des chromosomes
- le nombre de gènes
- le nombre de protéines
Retrouvez le dernier assemblage des différentes séquences obtenues publié par le GRC (Genome Reference Consortium). De quand date-t-il ?
- Quelle est la taille du génome humain ?
- Quelle est l'unité de mesure utilisée ?
- Combien y a-t-il de chromosomes chez cette espèce ?
- Quelle est la lignée pour cet organisme (au delà de genre espèce) ? l'identifiant taxonomique de l'espèce ? le code génétique utilisé ? le codon initiateur de la traduction ?
- Quelle est la taille du chromosome 7 ? Combien arbore-t-il de gènes ? de protéines ? Comment expliquer la différence ?
Suivez le lien pour aller sur la fiche de la séquence du chromosome 7.
- Comment s'organise cette fiche ?
- Dans quel journal est paru le premier article référencé sur la fiche ?
- Sous quel numéro cet article est-il référencé dans PubMed ?
- Est-ce que la séquence complète du chromosome est disponible ? Qu'est-ce qu'un contig ? à quelle version en est-on ?
- En suivant le lien à droite (Related inforation) vers Gene, combien de gènes seraient sur le chromosome 7 ? Cela correspond-il à ce que vous aviez noté précédemment ?
Nous allons nous intéresser à la mucoviscidose (mucoviscidosis) chez l'humain.
Dans quelle banque effectuer une recherche pour avoir des informations sur cette maladie génétique ?
Retrouvez la fiche correspondante.
- Quelle est l'identifiant de cette maladie ?
- Quelle(s) région(s) chromosomique(s) lui sont associées ?
- Quels sont les informations cliniques disponibles ?
- Quels gènes sont associés à cette maladie ?
- Comment est transmise cette maladie ?
- Quelle est sa prévalence ?
- Existe-t-il des modèles animaux pour cette maladie ?
- Y a-t-il des articles scientifiques relatifs à cette maladie ? combien sont référencés ?
A partir du menu de droite dans la section External links for entry, suivez le lien vers Protein.
- Sur quelle banque arrivez-vous ?
- Quelle est son identifiant dans cette banque ?
- Faire afficher la fiche au format texte ?
- Comment s'organise cette fiche ?
- A quoi correspondent les lignes CC, DR, FT, SQ ?
- Revenez à l'affichage précédent.
- Quelles sont les fonctions moléculaires connues de cette protéine ? Comment sont-elles référencées ?
- Est-ce que cette protéine est connue pour interagir avec d'autres ?
- Suivez le lien allant vers la banque de données STRING. A quoi correspondent les interactions affichées ?
- Utilisez les vues Occurence, Coexpression et Database. Affichez les information concernant KEGG et suivez le lien link out KEGG. Sur quel type de carte arrivez-vous ?
- Sur ce site, naviguez pour visualiser la voie métabolique de la glycolyse.
- Quelle est la formule du phosphoenol-pyruvate ?
- A quoi correspond le code 2.7.1.40 ?
- Quelle(s) enzyme(s) chez l'homme catalyse(nt) la réaction phosphoenol-pyruvate -> pyruvate ?
- Revenez sur la fiche de la protéine. Quelle est sa taille ? Quelle est l'unité de mesure utilisée ?
- Retrouvez la séquence de l'ARNm correspondant. Quel est son identifiant ? Sa taille ?
- Affichez sa séquence au format FASTA.
- Combien de domaines protéiques arbore cette séquence ?
- Affichez l'architecture en domaines de cette séquence en utilisant InterPro.
- Affichez les informations sur le domaine ATPase. Affichez les informations provenant de la banque de données SMART.
- Ce domaine est-il présent dans beaucoup de protéines ?
Quantité de données disponibles
- Trouvez le site Genomes Online Database. A partir de celui-ci, déterminez combien de génomes complets sont disponibles ; côté procaryote ? côté eucaryote ?
- A partir de ce que vous avez vu au cours de la séance, déterminez le nombre de séquences nucléiques actuellement disponibles ainsi que le nombre de séquences protéiques.
- Chaque année la revue scientifique Nucleic Acids Research édite un numéro spécial présentant une sélection de banques de données et met à disposition une base de données de banques de données ! Retrouvez combien de banques sont recensées.
Recherche dans les banques via l'utilisation d'une séquence dont l'identifiant est connu
1°) Récupérez la séquence Q6Q475
- de quelle type de séquence s'agit-il ?
- à quel organisme appartient-elle ?
- quelle est la fonction de Q6Q475 ?
- dans quelle banque cette séquence est-elle déposée ?
- retrouvez cette séquence sur le site UniProt.
- retrouvez la séquence nucléique codant cette protéine.
- affichez la séquence au format FASTA.
- à l'aide des outils fournis dans la suite EMBOSS, faites une traduction automatique de la séquence nucléique en séquence protéique.
- faites l'opération inverse : de la séquence protéique à la séquence nucléique.
- comparez la séquence nucléique obtenue à l'étape précédente avec la séquence nucléique originale. Observez-vous des différences ?