silico.biotoul.fr
 

Atelier Phylogénomique Conservation entre souches

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
m (Created page with '==Liens== *[http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique Atelier de Phylogénomique]')
m (Toutes les paires de génomes)
 
(11 intermediate revisions not shown)
Line 1: Line 1:
==Liens==
==Liens==
-
*[http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique Atelier de Phylogénomique]
+
*retour à  [http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique#Conservation_de_s.C3.A9quence_entre_souches_de_Prochlorococcus Atelier Phylogénomique]
 +
 
 +
==Genome pairs==
 +
===BlastN par pairs===
 +
Afin d'estimer les conservations entre les différents génomes, nous allons les comparer par paire de génomes dans l'ordre suivant, à l'aide de ''blastn'':
 +
<pre>
 +
'Aaab', 'Aaag', 'Aaaj', 'Aaaf', 'Aaak', 'Aaae', 'Aaai', 'Aaad', 'Aaaa', 'Aaah', 'Aaal', 'Aaac'
 +
</pre>
 +
Les résultats sont dans le repertoire:
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
mkdir ~/work/Prochlorococcus/BlastN
 +
</pre>
 +
Nous allons utiliser l'option ''BLAST-2-Sequences'' de blastn en précisant -subject <File_In>.
 +
==== Une paire de génomes ====
 +
Exemple avec une paire de génomes:
 +
<source lang='bash'>
 +
search_module blast
 +
 
 +
srun --pty bash
 +
module load bioinfo/ncbi-blast-2.7.1+
 +
blastn -query /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaab.fas -subject /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaag.fas -evalue 1e-05 -outfmt 6 -num_threads 1 -out ~/work/Prochlorococcus/BlastN/Aaab_vs_Aaag.tab
 +
</source>
 +
À la fin du programme, '''déconnectez-vous du nœud''' (exit) pour revenir au frontal genologin2.
 +
==== Toutes les paires de génomes ====
 +
Nous allons exécuter la même commande sur toutes les paires consécutives de génomes dans l'ordre listés ci-dessus. Nous allons utiliser ''sarray'' pour soumettre ces commandes en même temps sur le cluster. Vous pouvez vous référer à "How to generate an sarray command file with bash for single (fastq) file ?" sur la page http://bioinfo.genotoul.fr/index.php/faq/bioinfo_tips_faq/ pour vous aider dans cette tâche.
 +
 
 +
Nous allons écrire un script shell pour créer le fichier à soumettre par ''sarray''.
 +
# Dans un premier temps vous devez utiliser une boucle ''for'' pour construire les paires de génomes adjacents dans la liste ci-dessus.
 +
# et pour chaque paires reproduire la commande donnée en exemple en changeant les noms des génomes.
 +
MSK
 +
 
 +
<syntaxhighlight lang="bash">
 +
left=""
 +
for i in 'Aaab' 'Aaag' 'Aaaj' 'Aaaf' 'Aaak' 'Aaae' 'Aaai' 'Aaad' 'Aaaa' 'Aaah' 'Aaal' 'Aaac'
 +
do     
 +
  if [ "$left" != "" ];
 +
  then
 +
    output="~/work/Prochlorococcus/BlastN/"$left"_vs_"$i.tab
 +
    echo "module load bioinfo/ncbi-blast-2.7.1+; blastn -query /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/$left.fas -subject /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/$i.fas -evalue 1e-05 -outfmt 6 -num_threads 1 -out $output";
 +
  fi   
 +
  left=$i;
 +
done > blastn_pairs.sh
 +
</syntaxhighlight>
 +
 
 +
 
 +
Vérifier le script et lancer le avec ''sarray''
 +
<source lang='bash'>
 +
cat blastn_pairs.sh
 +
sarray -J mkdb -o %j.out -e %j.err -t 01:00:00 --cpus-per-task=1 blastn_pairs.sh
 +
</source>
 +
Vérifier l'exécution des blastn
 +
<source lang='bash'>
 +
squeue -l -u <user>
 +
</source>
 +
Lister les fichiers obtenus:
 +
<source lang='bash'>
 +
ls -l ~/work/Prochlorococcus/BlastN
 +
</source>
 +
 
 +
===genoplotR===
 +
Nous allons utiliser [http://genoplotr.r-forge.r-project.org/ genoplotR] pour visualiser les similarités entre les paires de génomes.
 +
====Installation du package genoPlotR====
 +
<source lang='bash'>
 +
srun --pty bash
 +
module load system/R-3.5.1
 +
R
 +
install.packages('genoPlotR')
 +
...
 +
* installing *source* package ‘genoPlotR’ ...
 +
library(genoPlotR)
 +
</source>
 +
Sélectionner ''France (Lyon 2) [https]'' comme miroir CRAN.
 +
 
 +
====Mise en œuvre====
 +
genoplotR nécessite plusieurs objets:
 +
*dna_seg: un objet dna_seg est un ensemble de gènes ou d'éléments le long d'un génome, à représenter sur une carte. Nous allons utiliser les fichiers en format gbk créés par prokka.
 +
*comparison: une comparaison est un ensemble de similitudes, représentant la comparaison entre deux segments d'ADN. Nous allons utiliser les résultats des blastn entre paires de genomes.
 +
*annotation: un objet d'annotation est utilisé pour annoter un segment d'ADN. Nous ne l'utilisons pas ici.
 +
*tree: un arbre au format Newick qui peut être analysé à l'aide du paquetage ade4. Nous l'utiliserons plus tard!
 +
 
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
mkdir ~/work/Prochlorococcus/images
 +
srun --pty bash
 +
module load system/R-3.5.1
 +
Rscript ~/work/scripts/genoplot_blastn_links.R
 +
</pre>
 +
Pour visualiser les fichiers pdf, il est préférable d'utiliser votre machine en P0. Pensez à faire des rsync avant! Placez-vous dans le répertoire racine de votre TD (au dessus de work).
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
evince work/Prochlorococcus/images/genoplot_blastn_links.pdf
 +
</pre>
 +
 
 +
===ACT===
 +
Il est également possible d'utiliser le logiciel ''act'' ([ftp://ftp.sanger.ac.uk/pub/resources/software/act/act.pdf documentation]).
 +
<!--
 +
Copier les fichiers sur votre porte de travail en P0 et lancer :
 +
<pre style="color:grey;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
act work/Prochlorococcus/prokka/Aaab/Aaab.gbk work/Prochlorococcus/BlastN/Aaab_vs_Aaag.tab work/Prochlorococcus/prokka/Aaag/Aaag.gbk
 +
</pre>
 +
Vous pouvez aussi utiliser les fichiers en format gff.
 +
<pre style="color:grey;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
act work/Prochlorococcus/prokka/Aaab/Aaab.gff work/Prochlorococcus/BlastN/Aaab_vs_Aaag.tab work/Prochlorococcus/prokka/Aaag/Aaag.gff work/Prochlorococcus/BlastN/Aaag_vs_Aaaj.tab work/Prochlorococcus/prokka/Aaaj/Aaaj.gff work/Prochlorococcus/BlastN/Aaaj_vs_Aaaf.tab work/Prochlorococcus/prokka/Aaaf/Aaaf.gff work/Prochlorococcus/BlastN/Aaaf_vs_Aaak.tab work/Prochlorococcus/prokka/Aaak/Aaak.gff
 +
</-->
 +
<pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
Question 1.3:
 +
Commentez les résultats obtenus avec genoplotR.
 +
Que pensez-vous de la conservation des séquences des génomes?
 +
</pre>
 +
 
 +
----
 +
 
 +
*retour à  [http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique#Conservation_de_s.C3.A9quence_entre_souches_de_Prochlorococcus Atelier Phylogénomique]

Current revision as of 15:14, 5 December 2022

Contents

Liens

Genome pairs

BlastN par pairs

Afin d'estimer les conservations entre les différents génomes, nous allons les comparer par paire de génomes dans l'ordre suivant, à l'aide de blastn:

'Aaab', 'Aaag', 'Aaaj', 'Aaaf', 'Aaak', 'Aaae', 'Aaai', 'Aaad', 'Aaaa', 'Aaah', 'Aaal', 'Aaac'

Les résultats sont dans le repertoire:

mkdir ~/work/Prochlorococcus/BlastN

Nous allons utiliser l'option BLAST-2-Sequences de blastn en précisant -subject <File_In>.

Une paire de génomes

Exemple avec une paire de génomes:

search_module blast
 
srun --pty bash 
module load bioinfo/ncbi-blast-2.7.1+
blastn -query /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaab.fas -subject /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaag.fas -evalue 1e-05 -outfmt 6 -num_threads 1 -out ~/work/Prochlorococcus/BlastN/Aaab_vs_Aaag.tab

À la fin du programme, déconnectez-vous du nœud (exit) pour revenir au frontal genologin2.

Toutes les paires de génomes

Nous allons exécuter la même commande sur toutes les paires consécutives de génomes dans l'ordre listés ci-dessus. Nous allons utiliser sarray pour soumettre ces commandes en même temps sur le cluster. Vous pouvez vous référer à "How to generate an sarray command file with bash for single (fastq) file ?" sur la page http://bioinfo.genotoul.fr/index.php/faq/bioinfo_tips_faq/ pour vous aider dans cette tâche.

Nous allons écrire un script shell pour créer le fichier à soumettre par sarray.

  1. Dans un premier temps vous devez utiliser une boucle for pour construire les paires de génomes adjacents dans la liste ci-dessus.
  2. et pour chaque paires reproduire la commande donnée en exemple en changeant les noms des génomes.

MSK

left=""
for i in 'Aaab' 'Aaag' 'Aaaj' 'Aaaf' 'Aaak' 'Aaae' 'Aaai' 'Aaad' 'Aaaa' 'Aaah' 'Aaal' 'Aaac'
do      
  if [ "$left" != "" ]; 
  then
    output="~/work/Prochlorococcus/BlastN/"$left"_vs_"$i.tab
    echo "module load bioinfo/ncbi-blast-2.7.1+; blastn -query /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/$left.fas -subject /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/$i.fas -evalue 1e-05 -outfmt 6 -num_threads 1 -out $output";
  fi     
  left=$i; 
done > blastn_pairs.sh


Vérifier le script et lancer le avec sarray

cat blastn_pairs.sh
sarray -J mkdb -o %j.out -e %j.err -t 01:00:00 --cpus-per-task=1 blastn_pairs.sh

Vérifier l'exécution des blastn

squeue -l -u <user>

Lister les fichiers obtenus:

ls -l ~/work/Prochlorococcus/BlastN

genoplotR

Nous allons utiliser genoplotR pour visualiser les similarités entre les paires de génomes.

Installation du package genoPlotR

srun --pty bash
module load system/R-3.5.1
R
install.packages('genoPlotR')
...
* installing *source* package ‘genoPlotR’ ...
library(genoPlotR)

Sélectionner France (Lyon 2) [https] comme miroir CRAN.

Mise en œuvre

genoplotR nécessite plusieurs objets:

  • dna_seg: un objet dna_seg est un ensemble de gènes ou d'éléments le long d'un génome, à représenter sur une carte. Nous allons utiliser les fichiers en format gbk créés par prokka.
  • comparison: une comparaison est un ensemble de similitudes, représentant la comparaison entre deux segments d'ADN. Nous allons utiliser les résultats des blastn entre paires de genomes.
  • annotation: un objet d'annotation est utilisé pour annoter un segment d'ADN. Nous ne l'utilisons pas ici.
  • tree: un arbre au format Newick qui peut être analysé à l'aide du paquetage ade4. Nous l'utiliserons plus tard!
mkdir ~/work/Prochlorococcus/images
srun --pty bash
module load system/R-3.5.1
Rscript ~/work/scripts/genoplot_blastn_links.R

Pour visualiser les fichiers pdf, il est préférable d'utiliser votre machine en P0. Pensez à faire des rsync avant! Placez-vous dans le répertoire racine de votre TD (au dessus de work).

evince work/Prochlorococcus/images/genoplot_blastn_links.pdf

ACT

Il est également possible d'utiliser le logiciel act (documentation).

Question 1.3:
Commentez les résultats obtenus avec genoplotR.
Que pensez-vous de la conservation des séquences des génomes?