Atelier Phylogénomique Blast
From silico.biotoul.fr
(Difference between revisions)
m (Created page with '==Liens== *[http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique Atelier de Phylogénomique]') |
m (→Boucle sur les génomes) |
||
(14 intermediate revisions not shown) | |||
Line 1: | Line 1: | ||
==Liens== | ==Liens== | ||
- | *[http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique Atelier de Phylogénomique] | + | *retour à [http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique#Pr.C3.A9liminaires Atelier de Phylogénomique] |
+ | |||
+ | ==Préliminaires== | ||
+ | <pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap"> | ||
+ | Question 1.5: | ||
+ | Selon vous qu'est-ce qui guide le choix du type de séquences à utiliser dans les comparaisons (peptides ou nucléotidiques)? | ||
+ | </pre> | ||
+ | ===Blast All-All=== | ||
+ | Nous allons utiliser [http://bioinfo.genotoul.fr/index.php/how-to-use/?software=How_to_use_SLURM_NCBI_Blast%2B NCBI_Blast+]. | ||
+ | |||
+ | Nous allons copier les fichiers peptides dans un répertoire de travail: | ||
+ | <source lang='bash'> | ||
+ | mkdir -p ~/work/Prochlorococcus/peptide | ||
+ | cp ~/work/Prochlorococcus/prokka/Aaa*/*.faa ~/work/Prochlorococcus/peptide/. | ||
+ | |||
+ | ls -l ~/work/Prochlorococcus/peptide | ||
+ | </source> | ||
+ | ====make blast database==== | ||
+ | Exemple: | ||
+ | <source lang='bash'> | ||
+ | search_module blast | ||
+ | |||
+ | module load bioinfo/ncbi-blast-2.7.1+ | ||
+ | srun -n1 -l makeblastdb -in Aaaa.faa -dbtype prot | ||
+ | </source> | ||
+ | Vous allez procéder comme précédemment, avec un script donné à ''sarray'', pour réaliser le makeblastdb sur tous les fichiers. | ||
+ | |||
+ | MSK | ||
+ | <syntaxhighlight lang="bash"> | ||
+ | for i in ~/work/Prochlorococcus/peptide/*.faa; | ||
+ | do | ||
+ | echo "module load bioinfo/ncbi-blast-2.7.1+; makeblastdb -in $i -dbtype prot;" | ||
+ | done > makeblastdb.sh | ||
+ | |||
+ | cat makeblastdb.sh | ||
+ | </syntaxhighlight> | ||
+ | |||
+ | <source lang='bash'>sarray -J mkdb -o %j.out -e %j.err -t 01:00:00 --cpus-per-task=1 makeblastdb.sh | ||
+ | squeue -l -u $USER | ||
+ | |||
+ | ll /home/yquentin/work/Prochlorococcus/peptide/*.faa.* | ||
+ | </source> | ||
+ | |||
+ | <!-- | ||
+ | ====Intra genomes==== | ||
+ | Nous vous proposons un script perl pour réaliser les ''blastp'' de l'ensemble des génomes avec '''sbatch''': | ||
+ | <source lang='bash'>mkdir -p ~/work/Prochlorococcus/BlastP | ||
+ | |||
+ | ~/work/scripts/blastp_intra.pl | ||
+ | |||
+ | squeue -l -u $USER | ||
+ | |||
+ | ls BlastP | wc -l | ||
+ | </source> | ||
+ | <pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap"> | ||
+ | Question 1.6: | ||
+ | Explicitez les paramètres de blast utilisés dans le script blastp_intra.pl. | ||
+ | Combien de fichiers attendez-vous? | ||
+ | </pre> | ||
+ | --> | ||
+ | |||
+ | ====Paire de genomes==== | ||
+ | <source lang='bash'> | ||
+ | mkdir -p ~/work/Prochlorococcus/BlastP | ||
+ | </source> | ||
+ | Exemple : | ||
+ | <source lang='bash'> | ||
+ | module load bioinfo/ncbi-blast-2.7.1+ | ||
+ | srun -n1 -l blastp -query ~/work/Prochlorococcus/peptide/Aaaa.faa -db ~/work/Prochlorococcus/peptide/Aaaa.faa -seg yes -dbsize 100000000 -evalue 1e-5 -outfmt 6 -num_threads 1 -out ~/work/Prochlorococcus/BlastP/Aaaa_Aaaa.tab | ||
+ | </source> | ||
+ | <pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap"> | ||
+ | Question 1.6: | ||
+ | Explicitez et justifiez les paramètres de blast utilisés dans votre script. | ||
+ | </pre> | ||
+ | |||
+ | ====Boucle sur les génomes==== | ||
+ | Utilisez ''sarray'' pour réaliser les ''blast'' en toutes les paires de génomes. | ||
+ | |||
+ | MSK | ||
+ | <syntaxhighlight lang="bash"> | ||
+ | evalue=1e-5 | ||
+ | dbsize=100000000 | ||
+ | for i in ~/work/Prochlorococcus/peptide/*.faa; | ||
+ | do | ||
+ | ip=$(basename $i .faa) | ||
+ | for j in ~/work/Prochlorococcus/peptide/*.faa; | ||
+ | do | ||
+ | jp=$(basename $j .faa) | ||
+ | outfile="~/work/Prochlorococcus/BlastP/"$ip"_"$jp".tab" | ||
+ | echo "module load bioinfo/ncbi-blast-2.7.1+; blastp -query $i -db $j -seg yes -dbsize $dbsize -evalue $evalue -outfmt 6 -num_threads 1 -out $outfile;" | ||
+ | done | ||
+ | done > blast_allall.sh | ||
+ | |||
+ | cat blast_allall.sh | ||
+ | </syntaxhighlight> | ||
+ | |||
+ | <source lang='bash'> | ||
+ | sarray -J mkdb -o %j.out -e %j.err -t 01:00:00 --cpus-per-task=1 blast_allall.sh | ||
+ | squeue -l -u $USER | ||
+ | </source> | ||
+ | <!-- | ||
+ | Pour les blastp inter génomes, nous allons utiliser un script similaire au précédent, mais avec une double boucle (sur -query et -db). | ||
+ | <pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap"> | ||
+ | cd ~/work/Prochlorococcus | ||
+ | ~/work/scripts/blastp_inter.pl | ||
+ | |||
+ | squeue -l -u $USER | ||
+ | |||
+ | ls BlastP | wc -l | ||
+ | </pre> | ||
+ | --> | ||
+ | vérifiez que les fichiers de sorties de blast sont présents et non vides. | ||
+ | <pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap"> | ||
+ | Question 1.7: | ||
+ | Combien de fichiers attendez-vous? | ||
+ | </pre> | ||
+ | |||
+ | ---- | ||
+ | *retour à [http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique#Pr.C3.A9liminaires Atelier de Phylogénomique] |
Current revision as of 16:02, 30 November 2022
Contents |
Liens
- retour à Atelier de Phylogénomique
Préliminaires
Question 1.5: Selon vous qu'est-ce qui guide le choix du type de séquences à utiliser dans les comparaisons (peptides ou nucléotidiques)?
Blast All-All
Nous allons utiliser NCBI_Blast+.
Nous allons copier les fichiers peptides dans un répertoire de travail:
mkdir -p ~/work/Prochlorococcus/peptide cp ~/work/Prochlorococcus/prokka/Aaa*/*.faa ~/work/Prochlorococcus/peptide/. ls -l ~/work/Prochlorococcus/peptide
make blast database
Exemple:
search_module blast module load bioinfo/ncbi-blast-2.7.1+ srun -n1 -l makeblastdb -in Aaaa.faa -dbtype prot
Vous allez procéder comme précédemment, avec un script donné à sarray, pour réaliser le makeblastdb sur tous les fichiers.
MSK
for i in ~/work/Prochlorococcus/peptide/*.faa; do echo "module load bioinfo/ncbi-blast-2.7.1+; makeblastdb -in $i -dbtype prot;" done > makeblastdb.sh cat makeblastdb.sh
sarray -J mkdb -o %j.out -e %j.err -t 01:00:00 --cpus-per-task=1 makeblastdb.sh squeue -l -u $USER ll /home/yquentin/work/Prochlorococcus/peptide/*.faa.*
Paire de genomes
mkdir -p ~/work/Prochlorococcus/BlastP
Exemple :
module load bioinfo/ncbi-blast-2.7.1+ srun -n1 -l blastp -query ~/work/Prochlorococcus/peptide/Aaaa.faa -db ~/work/Prochlorococcus/peptide/Aaaa.faa -seg yes -dbsize 100000000 -evalue 1e-5 -outfmt 6 -num_threads 1 -out ~/work/Prochlorococcus/BlastP/Aaaa_Aaaa.tab
Question 1.6: Explicitez et justifiez les paramètres de blast utilisés dans votre script.
Boucle sur les génomes
Utilisez sarray pour réaliser les blast en toutes les paires de génomes.
MSK
evalue=1e-5 dbsize=100000000 for i in ~/work/Prochlorococcus/peptide/*.faa; do ip=$(basename $i .faa) for j in ~/work/Prochlorococcus/peptide/*.faa; do jp=$(basename $j .faa) outfile="~/work/Prochlorococcus/BlastP/"$ip"_"$jp".tab" echo "module load bioinfo/ncbi-blast-2.7.1+; blastp -query $i -db $j -seg yes -dbsize $dbsize -evalue $evalue -outfmt 6 -num_threads 1 -out $outfile;" done done > blast_allall.sh cat blast_allall.sh
sarray -J mkdb -o %j.out -e %j.err -t 01:00:00 --cpus-per-task=1 blast_allall.sh squeue -l -u $USER
vérifiez que les fichiers de sorties de blast sont présents et non vides.
Question 1.7: Combien de fichiers attendez-vous?
- retour à Atelier de Phylogénomique