Atelier Phylogénomique Alignement Genomes
From silico.biotoul.fr
m (→Diversité génomique basée sur l’ANI) |
m (→Alignement Progressive Mauve de l’ensemble complet des 6 génomes) |
||
(17 intermediate revisions not shown) | |||
Line 1: | Line 1: | ||
==Liens== | ==Liens== | ||
- | *[http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique#Alignement_et_comparaison_de_g.C3.A9nomes_complets | + | *retour à [http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique#Alignement_et_comparaison_de_g.C3.A9nomes_complets Atelier Phylogénomique] |
==Alignement et comparaison de génomes complets== | ==Alignement et comparaison de génomes complets== | ||
Line 9: | Line 9: | ||
Copiez les 12 génomes de ''Prochlorococcus'' dans un répertoire de votre ~/work, par exemple genomes_prochlo: | Copiez les 12 génomes de ''Prochlorococcus'' dans un répertoire de votre ~/work, par exemple genomes_prochlo: | ||
- | < | + | <source lang='bash'> |
mkdir -p ~/work/Alignement_genomes/genomes_prochlo | mkdir -p ~/work/Alignement_genomes/genomes_prochlo | ||
cp /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/*.fas ~/work/Alignement_genomes/genomes_prochlo/ | cp /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/*.fas ~/work/Alignement_genomes/genomes_prochlo/ | ||
ls ~/work/Alignement_genomes/genomes_prochlo/ | ls ~/work/Alignement_genomes/genomes_prochlo/ | ||
- | </ | + | </source> |
===Exploration de la diversité génomique à partir de l’ANI et des distances Mash=== | ===Exploration de la diversité génomique à partir de l’ANI et des distances Mash=== | ||
=====Diversité génomique basée sur l’ANI===== | =====Diversité génomique basée sur l’ANI===== | ||
:'''Calculer l’ANI entre toutes les paires de génomes en utilisant la version basée sur [https://mummer4.github.io/ Mummer].''' http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/2018_supports/CoursAligntGenomes2018.pdf | :'''Calculer l’ANI entre toutes les paires de génomes en utilisant la version basée sur [https://mummer4.github.io/ Mummer].''' http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/2018_supports/CoursAligntGenomes2018.pdf | ||
- | < | + | <source lang='bash'> |
srun --pty bash | srun --pty bash | ||
module load system/Python-3.6.3 | module load system/Python-3.6.3 | ||
Line 25: | Line 25: | ||
average_nucleotide_identity.py -v -i ~/work/Alignement_genomes/genomes_prochlo/ -o ~/work/Alignement_genomes/genomes_ANIm_output/ --gformat png,pdf,eps,svg --write_excel -m ANIm | average_nucleotide_identity.py -v -i ~/work/Alignement_genomes/genomes_prochlo/ -o ~/work/Alignement_genomes/genomes_ANIm_output/ --gformat png,pdf,eps,svg --write_excel -m ANIm | ||
- | </ | + | </source> |
Exemple de script "[http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/scripts/RunSLURM_ANI.csh RunSLURM_ANI.csh]" (les chemins sont à changer): | Exemple de script "[http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/scripts/RunSLURM_ANI.csh RunSLURM_ANI.csh]" (les chemins sont à changer): | ||
- | < | + | <source lang='bash'> |
sbatch ~/work/Alignement_genomes/RunSLURM_ANI.csh | sbatch ~/work/Alignement_genomes/RunSLURM_ANI.csh | ||
squeue -l -u $USER | squeue -l -u $USER | ||
- | </ | + | </source> |
<pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap"> | <pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap"> | ||
Line 44: | Line 44: | ||
MSK | MSK | ||
- | + | ||
- | < | + | <source lang='bash'> |
srun --pty bash | srun --pty bash | ||
Line 70: | Line 70: | ||
dev.off() | dev.off() | ||
cat(pdf_file, "\n") | cat(pdf_file, "\n") | ||
- | </ | + | </source> |
- | + | ||
+ | <!-- | ||
<syntaxhighlight lang="python"> | <syntaxhighlight lang="python"> | ||
- | id_file <- "work/Alignement_genomes/genomes_ANIm_output/ANIm_percentage_identity.tab" | + | id_file <- "~/work/Alignement_genomes/genomes_ANIm_output/ANIm_percentage_identity.tab" |
id_data <- read.table(file=id_file, header=T, row.names=1) | id_data <- read.table(file=id_file, header=T, row.names=1) | ||
heatmap(as.matrix(id_data), scale="none", symm=T, main="ANIm_percentage_identity") | heatmap(as.matrix(id_data), scale="none", symm=T, main="ANIm_percentage_identity") | ||
- | co_file <- "work/Alignement_genomes/genomes_ANIm_output/ANIm_alignment_coverage.tab" | + | co_file <- "~/work/Alignement_genomes/genomes_ANIm_output/ANIm_alignment_coverage.tab" |
co_data <- read.table(file=co_file, header=T, row.names=1) | co_data <- read.table(file=co_file, header=T, row.names=1) | ||
heatmap(as.matrix(co_data), scale="none", symm=T, main="ANIm_alignment_coverage") | heatmap(as.matrix(co_data), scale="none", symm=T, main="ANIm_alignment_coverage") | ||
Line 88: | Line 88: | ||
plot(co_nj, main="ANIm_alignment_coverage") | plot(co_nj, main="ANIm_alignment_coverage") | ||
</syntaxhighlight> | </syntaxhighlight> | ||
+ | --> | ||
<!-- | <!-- | ||
On pourra par exemple utiliser le site [http://www.phylogeny.fr/one_task.cgi?task_type=bionj phylogeny.fr] dans lequel on importera le fichier genomes_ANIm_output/ANIm_percentage_identity.tab (modifié en enlevant la 1ère ligne et en la remplaçant par le nombre de séquences 12). | On pourra par exemple utiliser le site [http://www.phylogeny.fr/one_task.cgi?task_type=bionj phylogeny.fr] dans lequel on importera le fichier genomes_ANIm_output/ANIm_percentage_identity.tab (modifié en enlevant la 1ère ligne et en la remplaçant par le nombre de séquences 12). | ||
Line 111: | Line 112: | ||
En mode intéractif: | En mode intéractif: | ||
- | < | + | <source lang='bash'> |
srun --pty bash | srun --pty bash | ||
module load system/R-3.4.3 compiler/gcc-7.2.0 | module load system/R-3.4.3 compiler/gcc-7.2.0 | ||
module load bioinfo/Mash-2.1 | module load bioinfo/Mash-2.1 | ||
~/work/scripts/Mash_sketch.sh ~/work/Alignement_genomes/genomes_prochlo/ | ~/work/scripts/Mash_sketch.sh ~/work/Alignement_genomes/genomes_prochlo/ | ||
- | </ | + | </source> |
Les résultats se trouvent dans le répertoire data_MashSketches/. | Les résultats se trouvent dans le répertoire data_MashSketches/. | ||
- | < | + | <source lang='bash'> |
~/work/scripts/Mash_dist_allpairs.sh data_MashSketches/ | ~/work/scripts/Mash_dist_allpairs.sh data_MashSketches/ | ||
- | </ | + | </source> |
Le résultat se trouve dans le fichier mash_dist.out | Le résultat se trouve dans le fichier mash_dist.out | ||
Line 131: | Line 132: | ||
* 3ème colonne : distance Mash (estimation du taux de mutation selon un modèle d'évolution simple) | * 3ème colonne : distance Mash (estimation du taux de mutation selon un modèle d'évolution simple) | ||
- | < | + | <source lang='bash'> |
Question 2.4: | Question 2.4: | ||
Interprétez les résultats. | Interprétez les résultats. | ||
Comparez les résultats de distance MASH à ceux de l’ANI. | Comparez les résultats de distance MASH à ceux de l’ANI. | ||
- | </ | + | </source> |
--> | --> | ||
===Alignements Mauve et ProgressiveMauve=== | ===Alignements Mauve et ProgressiveMauve=== | ||
- | <pre style="color: | + | <pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap"> |
NB : Commencez par lancer l’alignement ProgressiveMauve (environ 50-60 minutes de temps d’execution) avant de faire la question sur l'alignement Mauve !!! | NB : Commencez par lancer l’alignement ProgressiveMauve (environ 50-60 minutes de temps d’execution) avant de faire la question sur l'alignement Mauve !!! | ||
</pre> | </pre> | ||
- | =====Alignements Mauve d'un sous-ensemble de | + | =====Alignements Mauve d'un sous-ensemble de six génomes===== |
- | < | + | <source lang='bash'> |
mkdir -p ~/work/Alignement_genomes/cat_genomes_prochlo | mkdir -p ~/work/Alignement_genomes/cat_genomes_prochlo | ||
- | </ | + | </source> |
- | + | ||
- | + | ===== Concaténer les six génomes sélectionnés à la question précédente dans un fichier multifasta ===== | |
+ | |||
<syntaxhighlight lang="bash"> | <syntaxhighlight lang="bash"> | ||
rm ~/work/Alignement_genomes/cat_genomes_prochlo/6GC_Prochlorococcus.fna | rm ~/work/Alignement_genomes/cat_genomes_prochlo/6GC_Prochlorococcus.fna | ||
Line 162: | Line 164: | ||
done | done | ||
</syntaxhighlight> | </syntaxhighlight> | ||
- | + | ||
MSK | MSK | ||
<!-- | <!-- | ||
Line 179: | Line 181: | ||
======Lancement de l’alignement des 6 génomes sur le cluster SLURM====== | ======Lancement de l’alignement des 6 génomes sur le cluster SLURM====== | ||
- | < | + | <source lang='bash'> |
mkdir ~/work/Alignement_genomes/Mauve | mkdir ~/work/Alignement_genomes/Mauve | ||
cd ~/work/Alignement_genomes | cd ~/work/Alignement_genomes | ||
- | </ | + | </source> |
Exemple de script "[http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/scripts/RunSLURM_Mauve_6GProchlo.csh RunSLURM_Mauve_6GProchlo.csh]" (les chemins sont à changer): | Exemple de script "[http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/scripts/RunSLURM_Mauve_6GProchlo.csh RunSLURM_Mauve_6GProchlo.csh]" (les chemins sont à changer): | ||
- | < | + | <source lang='bash'> |
sbatch RunSLURM_Mauve_6GProchlo.csh | sbatch RunSLURM_Mauve_6GProchlo.csh | ||
- | squeue -l -u | + | squeue -l -u $USER |
- | </ | + | </source> |
<!-- | <!-- | ||
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap"> | <pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap"> | ||
Line 195: | Line 197: | ||
--> | --> | ||
Exemple de la commande à lancer avec le fichier en format gbk | Exemple de la commande à lancer avec le fichier en format gbk | ||
- | < | + | <source lang='bash'> |
module load bioinfo/mauve_2.4.0 | module load bioinfo/mauve_2.4.0 | ||
mauveAligner --output=Mauve/6GC_Prochlorococcus_gbk.mauve_def --permutation-matrix-output=Mauve/6GC_Prochlorococcus_gbk.permutation_matrix --output-guide-tree=Mauve/6GC_Prochlorococcus_gbk.tree --output-alignment=Mauve/6GC_Prochlorococcus_gbk_mauve.xmfa cat_genomes_prochlo/6GC_Prochlorococcus.gbk | mauveAligner --output=Mauve/6GC_Prochlorococcus_gbk.mauve_def --permutation-matrix-output=Mauve/6GC_Prochlorococcus_gbk.permutation_matrix --output-guide-tree=Mauve/6GC_Prochlorococcus_gbk.tree --output-alignment=Mauve/6GC_Prochlorococcus_gbk_mauve.xmfa cat_genomes_prochlo/6GC_Prochlorococcus.gbk | ||
- | </ | + | </source> |
<!-- | <!-- | ||
Soumission du job (vérifiez que vous êtes bien sur '''genologin2'''!): | Soumission du job (vérifiez que vous êtes bien sur '''genologin2'''!): | ||
Line 205: | Line 207: | ||
</pre> | </pre> | ||
- | < | + | <source lang='bash'> |
#!/bin/bash | #!/bin/bash | ||
#SBATCH --time=02:00:00 #job time limit | #SBATCH --time=02:00:00 #job time limit | ||
Line 220: | Line 222: | ||
# My command lines I want to run on the cluster | # My command lines I want to run on the cluster | ||
mauveAligner --output=/home/hchiapello/work/TP_M2_BIOINFO/TP_2018/6GC_Prochlorococcus.mauve_def --permutation-matrix-output=/home/hchiapello/work/TP_M2_BIOINFO/TP_2018/6GC_Prochlorococcus.permutation_matrix --output-guide-tree=/home/hchiapello/work/TP_M2_BIOINFO/TP_2018/6GC_Prochlorococcus.tree --output-alignment=/home/hchiapello/work/TP_M2_BIOINFO/TP_2018/6GC_Prochlorococcus_mauve.xmfa /home/hchiapello/work/TP_M2_BIOINFO/TP_2018/6GC_Prochlorococcus.fna | mauveAligner --output=/home/hchiapello/work/TP_M2_BIOINFO/TP_2018/6GC_Prochlorococcus.mauve_def --permutation-matrix-output=/home/hchiapello/work/TP_M2_BIOINFO/TP_2018/6GC_Prochlorococcus.permutation_matrix --output-guide-tree=/home/hchiapello/work/TP_M2_BIOINFO/TP_2018/6GC_Prochlorococcus.tree --output-alignment=/home/hchiapello/work/TP_M2_BIOINFO/TP_2018/6GC_Prochlorococcus_mauve.xmfa /home/hchiapello/work/TP_M2_BIOINFO/TP_2018/6GC_Prochlorococcus.fna | ||
- | </ | + | </source> |
--> | --> | ||
======Analyser et interpréter les résultats en les visualisant via l’interface Mauve (commande Mauve)====== | ======Analyser et interpréter les résultats en les visualisant via l’interface Mauve (commande Mauve)====== | ||
Remarques: | Remarques: | ||
- | *dans le fichier ''Mauve/6GC_Prochlorococcus_gbk_mauve.xmfa'', le chemin du fichier gbk | + | *dans le fichier ''Mauve/6GC_Prochlorococcus_gbk_mauve.xmfa'', le chemin du fichier gbk est relatif, penser à lancer Mauve dans le bon répertoire pour avoir les annotations des gènes. |
*lien entre le code et le nom de souche: [http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/data/Prochlorococcus/NCBI/species_strain_names.txt species_strain_names.txt] | *lien entre le code et le nom de souche: [http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/data/Prochlorococcus/NCBI/species_strain_names.txt species_strain_names.txt] | ||
<pre> | <pre> | ||
Line 254: | Line 256: | ||
=====Alignement Progressive Mauve de l’ensemble complet des 6 génomes===== | =====Alignement Progressive Mauve de l’ensemble complet des 6 génomes===== | ||
Afin de comparer les logiciels Mauve et ProgressiveMauve nous allons analyser l'ensemble de 6 génomes avec ProgressiveMauve. | Afin de comparer les logiciels Mauve et ProgressiveMauve nous allons analyser l'ensemble de 6 génomes avec ProgressiveMauve. | ||
- | < | + | <source lang='bash'> |
ls | ls | ||
mkdir ~/work/Alignement_genomes/ProgressiveMauve | mkdir ~/work/Alignement_genomes/ProgressiveMauve | ||
cd ~/work/Alignement_genomes | cd ~/work/Alignement_genomes | ||
- | </ | + | </source> |
Créer un ficher .csh en prenant pour exemple le fichier "[http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/scripts/RunSLURM_PMauve_6GProchlo.csh RunSLURM_PMauve_6GProchlo.csh]" | Créer un ficher .csh en prenant pour exemple le fichier "[http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/scripts/RunSLURM_PMauve_6GProchlo.csh RunSLURM_PMauve_6GProchlo.csh]" | ||
avec comme ligne de commande: | avec comme ligne de commande: | ||
- | < | + | <source lang='bash'> |
progressiveMauve --output=ProgressiveMauve/6GC_Prochlorococcus_PMauve.xmfa cat_genomes_prochlo/6GC_Prochlorococcus.gbk | progressiveMauve --output=ProgressiveMauve/6GC_Prochlorococcus_PMauve.xmfa cat_genomes_prochlo/6GC_Prochlorococcus.gbk | ||
- | </ | + | </source> |
[http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/Mauve Mauve] | [http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/Mauve Mauve] | ||
<!-- | <!-- | ||
- | < | + | <source lang='bash'> |
>mkdir ~/work/Alignement_genomes/ProgressiveMauve | >mkdir ~/work/Alignement_genomes/ProgressiveMauve | ||
srun --pty bash | srun --pty bash | ||
module load bioinfo/mauve_2.4.0 | module load bioinfo/mauve_2.4.0 | ||
progressiveMauve --output=ProgressiveMauve/6GC_Prochlorococcus_PMauve.xmfa cat_genomes_prochlo/6GC_Prochlorococcus.gbk | progressiveMauve --output=ProgressiveMauve/6GC_Prochlorococcus_PMauve.xmfa cat_genomes_prochlo/6GC_Prochlorococcus.gbk | ||
- | </ | + | </source> |
--> | --> | ||
<pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap"> | <pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap"> | ||
Line 299: | Line 301: | ||
======Lancer l’alignement ProgressiveMauve des 12 génomes sur le cluster SLURM====== | ======Lancer l’alignement ProgressiveMauve des 12 génomes sur le cluster SLURM====== | ||
Exemple de script "[http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/scripts/RunSLURM_PMauve_12GProchlo.csh RunSLURM_PMauve_12GProchlo.csh]" (les chemins sont à changer). | Exemple de script "[http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/scripts/RunSLURM_PMauve_12GProchlo.csh RunSLURM_PMauve_12GProchlo.csh]" (les chemins sont à changer). | ||
- | < | + | <source lang='bash'> |
sbatch RunSLURM_PMauve_12GProchlo.csh | sbatch RunSLURM_PMauve_12GProchlo.csh | ||
- | squeue -l -u | + | squeue -l -u $USER |
- | </ | + | </source> |
[http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/Mauve Mauve] | [http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/Mauve Mauve] | ||
<!-- | <!-- | ||
- | < | + | <source lang='bash'> |
mkdir ~/work/Alignement_genomes/ProgressiveMauve | mkdir ~/work/Alignement_genomes/ProgressiveMauve | ||
cd ~/work/Alignement_genomes | cd ~/work/Alignement_genomes | ||
Line 311: | Line 313: | ||
module load bioinfo/mauve_2.4.0 | module load bioinfo/mauve_2.4.0 | ||
progressiveMauve --output=ProgressiveMauve/12GC_Prochlorococcus_PMauve.xmfa genomes_prochlo/12GC_Prochlorococcus.fna | progressiveMauve --output=ProgressiveMauve/12GC_Prochlorococcus_PMauve.xmfa genomes_prochlo/12GC_Prochlorococcus.fna | ||
- | </ | + | </source> |
- | < | + | <source lang='bash'> |
sbatch RunSLURM_PMauve_12GProchlo.csh | sbatch RunSLURM_PMauve_12GProchlo.csh | ||
- | </ | + | </source> |
--> | --> | ||
<pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap"> | <pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap"> | ||
Line 321: | Line 323: | ||
Analyser et interpréter les résultats en les visualisant via l’interface Mauve | Analyser et interpréter les résultats en les visualisant via l’interface Mauve | ||
- | Si vous avez l'annotation des gènes dans le résultat de ''Progressive Mauve'', vous pouvez visualiser la conservation du contexte de ces gènes de l' | + | Si vous avez l'annotation des gènes dans le résultat de ''Progressive Mauve'', vous pouvez visualiser la conservation du contexte de ces gènes de l'OG0000017 d'OrthoFinder et proposer une interprétation des liens complexes existant entre ces gènes homologues. |
</pre> | </pre> | ||
L'article de Yan et al., 2018 Genome rearrangement shapes ''Prochlorococcus'' ecological adaptation. Appl Environ Microbiol 84:e01178-18. https://doi.org/10.1128/AEM.01178-18 peut vous aider dans l'interprétation des résultats. | L'article de Yan et al., 2018 Genome rearrangement shapes ''Prochlorococcus'' ecological adaptation. Appl Environ Microbiol 84:e01178-18. https://doi.org/10.1128/AEM.01178-18 peut vous aider dans l'interprétation des résultats. |
Current revision as of 16:45, 30 November 2022
Liens
- retour à Atelier Phylogénomique
Alignement et comparaison de génomes complets
- Jeu de données
Vous pouvez retrouver les informations sur les 12 génomes de Prochlorococcus ici et les données dans le répertoire: /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/
Copiez les 12 génomes de Prochlorococcus dans un répertoire de votre ~/work, par exemple genomes_prochlo:
mkdir -p ~/work/Alignement_genomes/genomes_prochlo cp /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/*.fas ~/work/Alignement_genomes/genomes_prochlo/ ls ~/work/Alignement_genomes/genomes_prochlo/
Exploration de la diversité génomique à partir de l’ANI et des distances Mash
Diversité génomique basée sur l’ANI
- Calculer l’ANI entre toutes les paires de génomes en utilisant la version basée sur Mummer. http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/2018_supports/CoursAligntGenomes2018.pdf
srun --pty bash module load system/Python-3.6.3 module load bioinfo/mummer-4.0.0beta2 average_nucleotide_identity.py -h average_nucleotide_identity.py -v -i ~/work/Alignement_genomes/genomes_prochlo/ -o ~/work/Alignement_genomes/genomes_ANIm_output/ --gformat png,pdf,eps,svg --write_excel -m ANIm
Exemple de script "RunSLURM_ANI.csh" (les chemins sont à changer):
sbatch ~/work/Alignement_genomes/RunSLURM_ANI.csh squeue -l -u $USER
Question 2.1: Regardez les différents fichiers résultats. Regardez la couverture et le pourcentage d’identité des alignements et commentez les valeurs obtenues. Qu’en concluez-vous sur la diversité des génomes de Prochlorococcus ?
- Construire un arbre de Neighbor-Joining basé sur le ANI (ANIm_percentage_identity et ANIm_alignment_coverage) avec le logiciel de votre choix
Vous pourrez par exemple utiliser la fonction nj du package R ape. Notez que la commande nj prend en entrée une matrice de distance. La fonction heatmap (r-graph-gallery) peut être utile pour visualiser les relations entre les souches.
MSK
srun --pty bash mkdir ~/work/Alignement_genomes/images cd ~/work/Alignement_genomes/genomes_ANIm_output module load system/R-4.1.1_gcc-9.3.0 R pdf_file <- '~/work/Alignement_genomes/images/ANIm_percentage_identity.pdf' ANIm_percentage_identity <- 'ANIm_percentage_identity.tab' data <- read.delim(file=ANIm_percentage_identity, sep="\t", header=TRUE, row.names=1) pdf(file=pdf_file, paper="a4r") heatmap(t(as.matrix(data)), scale='none', xlab="Strains", labCol=NA) dev.off() cat(pdf_file, "\n") pdf_file <- '~/work/Alignement_genomes/images/ANIm_alignment_coverage.pdf' ANIm_alignment_coverage <- 'ANIm_alignment_coverage.tab' data <- read.delim(file=ANIm_alignment_coverage, sep="\t", header=TRUE, row.names=1) pdf(file=pdf_file, paper="a4r") heatmap(t(as.matrix(data)), scale='none', xlab="Strains", labCol=NA) dev.off() cat(pdf_file, "\n")
Question 2.2: Interprétez les résultats.
- Sélectionnez les génomes en ne gardant que le sous-groupe de 6 génomes qui ont au moins 28% de couverture avec tous les autres génomes (pour cela regardez le fichier ANIm_alignement_coverage.tab)
Question 2.3: Citez les.
Distance Mash entre les génomes
Passez à l'étape suivante.
Alignements Mauve et ProgressiveMauve
NB : Commencez par lancer l’alignement ProgressiveMauve (environ 50-60 minutes de temps d’execution) avant de faire la question sur l'alignement Mauve !!!
Alignements Mauve d'un sous-ensemble de six génomes
mkdir -p ~/work/Alignement_genomes/cat_genomes_prochlo
Concaténer les six génomes sélectionnés à la question précédente dans un fichier multifasta
rm ~/work/Alignement_genomes/cat_genomes_prochlo/6GC_Prochlorococcus.fna rm ~/work/Alignement_genomes/cat_genomes_prochlo/6GC_Prochlorococcus.gbk rm ~/work/Alignement_genomes/cat_genomes_prochlo/6GC_Prochlorococcus.gff for i in Aaab Aaag Aaaj Aaaf Aaak Aaae do echo $i cat ~/work/Alignement_genomes/genomes_prochlo/$i.fas >> ~/work/Alignement_genomes/cat_genomes_prochlo/6GC_Prochlorococcus.fna cat ~/work/Prochlorococcus/prokka/$i/$i.gbk >> ~/work/Alignement_genomes/cat_genomes_prochlo/6GC_Prochlorococcus.gbk cat ~/work/Prochlorococcus/prokka/$i/$i.gff >> ~/work/Alignement_genomes/cat_genomes_prochlo/6GC_Prochlorococcus.gff done
MSK
Lancement de l’alignement des 6 génomes sur le cluster SLURM
mkdir ~/work/Alignement_genomes/Mauve cd ~/work/Alignement_genomes
Exemple de script "RunSLURM_Mauve_6GProchlo.csh" (les chemins sont à changer):
sbatch RunSLURM_Mauve_6GProchlo.csh squeue -l -u $USER
Exemple de la commande à lancer avec le fichier en format gbk
module load bioinfo/mauve_2.4.0 mauveAligner --output=Mauve/6GC_Prochlorococcus_gbk.mauve_def --permutation-matrix-output=Mauve/6GC_Prochlorococcus_gbk.permutation_matrix --output-guide-tree=Mauve/6GC_Prochlorococcus_gbk.tree --output-alignment=Mauve/6GC_Prochlorococcus_gbk_mauve.xmfa cat_genomes_prochlo/6GC_Prochlorococcus.gbk
Analyser et interpréter les résultats en les visualisant via l’interface Mauve (commande Mauve)
Remarques:
- dans le fichier Mauve/6GC_Prochlorococcus_gbk_mauve.xmfa, le chemin du fichier gbk est relatif, penser à lancer Mauve dans le bon répertoire pour avoir les annotations des gènes.
- lien entre le code et le nom de souche: species_strain_names.txt
#FormatVersion Mauve1 #Sequence1File cat_genomes_prochlo/6GC_Prochlorococcus.gbk #Sequence1Entry 1 #Sequence1Format GenBank #Annotation1File cat_genomes_prochlo/6GC_Prochlorococcus.gbk ...
Exploration du contexte génomique
L'outil Sequence Navigator (les jumelles) permet de rechercher un ou plusieurs gènes sur différents critères. Nous allons utiliser cette fonctionnalité pour analyser le contexte génomique des gènes suivants. Les noms des gènes sont accessibles par locus tag. En vous plaçant sur le gène, vous avez ses annotations avec View Genbank.... En quittant les jumelles, vous pouvez analyser la conservation du contexte à différentes échelles.
Aaab.g_00239 Aaab.g_00820 Aaab.g_00825 Aaag.g_00262 Aaag.g_00862 Aaag.g_00867 Aaaj.g_00252 Aaaj.g_00786 Aaaj.g_00791 Aaaf.g_00249 Aaaf.g_00782 Aaaf.g_00787 Aaak.g_00251 Aaak.g_00834 Aaak.g_00839 Aaae.g_00242 Aaae.g_00786 Aaae.g_00791
Question 2.5: Combien y’a-t-il de LCB dans l’alignement ? Quel est leur poids minimal ? Y’a–t-il des réarrangements globaux dans l’alignement et si oui lesquels ? Décrire la structure de l’alignement. Que se passe-t-il si on fait varier le poids des LCB ? Qu'avez-vous appris de l'analyse du contexte génomique des gènes.
Alignement Progressive Mauve de l’ensemble complet des 6 génomes
Afin de comparer les logiciels Mauve et ProgressiveMauve nous allons analyser l'ensemble de 6 génomes avec ProgressiveMauve.
ls mkdir ~/work/Alignement_genomes/ProgressiveMauve cd ~/work/Alignement_genomes
Créer un ficher .csh en prenant pour exemple le fichier "RunSLURM_PMauve_6GProchlo.csh" avec comme ligne de commande:
progressiveMauve --output=ProgressiveMauve/6GC_Prochlorococcus_PMauve.xmfa cat_genomes_prochlo/6GC_Prochlorococcus.gbk
Question 2.6: Comparez et interprétez les résultats obtenus.
Alignement Progressive Mauve de l’ensemble complet des 12 génomes
Concaténer les 12 génomes dans un fichier multifasta
MSK
Lancer l’alignement ProgressiveMauve des 12 génomes sur le cluster SLURM
Exemple de script "RunSLURM_PMauve_12GProchlo.csh" (les chemins sont à changer).
sbatch RunSLURM_PMauve_12GProchlo.csh squeue -l -u $USER
Question 2.7: Analyser et interpréter les résultats en les visualisant via l’interface Mauve Si vous avez l'annotation des gènes dans le résultat de ''Progressive Mauve'', vous pouvez visualiser la conservation du contexte de ces gènes de l'OG0000017 d'OrthoFinder et proposer une interprétation des liens complexes existant entre ces gènes homologues.
L'article de Yan et al., 2018 Genome rearrangement shapes Prochlorococcus ecological adaptation. Appl Environ Microbiol 84:e01178-18. https://doi.org/10.1128/AEM.01178-18 peut vous aider dans l'interprétation des résultats.
Reconstruction de l’histoire évolutive des réarrangements et des états ancestraux
masqué