Atelier Phylogénomique Blast

From silico.biotoul.fr

(Difference between revisions)

Current revision as of 16:02, 30 November 2022

Liens

retour à Atelier de Phylogénomique

Préliminaires

Question 1.5:
Selon vous qu'est-ce qui guide le choix du type de séquences à utiliser dans les comparaisons (peptides ou nucléotidiques)?

Blast All-All

Nous allons utiliser NCBI_Blast+.

Nous allons copier les fichiers peptides dans un répertoire de travail:

mkdir -p ~/work/Prochlorococcus/peptide
cp ~/work/Prochlorococcus/prokka/Aaa*/*.faa ~/work/Prochlorococcus/peptide/.
 
ls -l ~/work/Prochlorococcus/peptide

make blast database

Exemple:

search_module blast
 
module load bioinfo/ncbi-blast-2.7.1+
srun -n1 -l makeblastdb -in Aaaa.faa -dbtype prot

Vous allez procéder comme précédemment, avec un script donné à sarray, pour réaliser le makeblastdb sur tous les fichiers.

MSK

for i in ~/work/Prochlorococcus/peptide/*.faa; 
do      
  echo "module load bioinfo/ncbi-blast-2.7.1+; makeblastdb -in $i  -dbtype prot;" 
done > makeblastdb.sh
 
cat makeblastdb.sh

sarray -J mkdb -o %j.out -e %j.err -t 01:00:00 --cpus-per-task=1 makeblastdb.sh
squeue -l -u $USER
 
ll /home/yquentin/work/Prochlorococcus/peptide/*.faa.*

Paire de genomes

mkdir -p ~/work/Prochlorococcus/BlastP

Exemple :

module load bioinfo/ncbi-blast-2.7.1+
srun -n1 -l blastp -query ~/work/Prochlorococcus/peptide/Aaaa.faa -db ~/work/Prochlorococcus/peptide/Aaaa.faa -seg yes -dbsize 100000000 -evalue 1e-5 -outfmt 6 -num_threads 1 -out ~/work/Prochlorococcus/BlastP/Aaaa_Aaaa.tab

Question 1.6:
Explicitez et justifiez les paramètres de blast utilisés dans votre script.

Boucle sur les génomes

Utilisez sarray pour réaliser les blast en toutes les paires de génomes.

MSK

evalue=1e-5
dbsize=100000000
for i in ~/work/Prochlorococcus/peptide/*.faa; 
do 
  ip=$(basename $i .faa)     
  for j in ~/work/Prochlorococcus/peptide/*.faa;   
  do
    jp=$(basename $j .faa)     
    outfile="~/work/Prochlorococcus/BlastP/"$ip"_"$jp".tab"
    echo "module load bioinfo/ncbi-blast-2.7.1+; blastp -query $i -db $j -seg yes -dbsize $dbsize -evalue $evalue -outfmt 6 -num_threads 1 -out $outfile;" 
  done
done > blast_allall.sh
 
cat blast_allall.sh

sarray -J mkdb -o %j.out -e %j.err -t 01:00:00 --cpus-per-task=1 blast_allall.sh
squeue -l -u $USER

vérifiez que les fichiers de sorties de blast sont présents et non vides.

Question 1.7:
Combien de fichiers attendez-vous?

retour à Atelier de Phylogénomique

@@ Line 1: / Line 1: @@
 ==Liens==
-*[http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique Atelier de Phylogénomique]
+*retour à [http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique#Pr.C3.A9liminaires Atelier de Phylogénomique]
+==Préliminaires==
+<pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
+Question 1.5:
+Selon vous qu'est-ce qui guide le choix du type de séquences à utiliser dans les comparaisons (peptides ou nucléotidiques)?
+</pre>
+===Blast All-All===
+Nous allons utiliser [http://bioinfo.genotoul.fr/index.php/how-to-use/?software=How_to_use_SLURM_NCBI_Blast%2B NCBI_Blast+].
+Nous allons copier les fichiers peptides dans un répertoire de travail:
+<source lang='bash'>
+mkdir -p ~/work/Prochlorococcus/peptide
+cp ~/work/Prochlorococcus/prokka/Aaa*/*.faa ~/work/Prochlorococcus/peptide/.
+ls -l ~/work/Prochlorococcus/peptide
+</source>
+====make blast database====
+Exemple:
+<source lang='bash'>
+search_module blast
+module load bioinfo/ncbi-blast-2.7.1+
+srun -n1 -l makeblastdb -in Aaaa.faa -dbtype prot
+</source>
+Vous allez procéder comme précédemment, avec un script donné à ''sarray'', pour réaliser le makeblastdb sur tous les fichiers.
+MSK
+<syntaxhighlight lang="bash">
+for i in ~/work/Prochlorococcus/peptide/*.faa;
+do
+  echo "module load bioinfo/ncbi-blast-2.7.1+; makeblastdb -in $i  -dbtype prot;"
+done > makeblastdb.sh
+cat makeblastdb.sh
+</syntaxhighlight>
+<source lang='bash'>sarray -J mkdb -o %j.out -e %j.err -t 01:00:00 --cpus-per-task=1 makeblastdb.sh
+squeue -l -u $USER
+ll /home/yquentin/work/Prochlorococcus/peptide/*.faa.*
+</source>
+<!--
+====Intra genomes====
+Nous vous proposons un script perl pour réaliser les ''blastp'' de l'ensemble des génomes avec '''sbatch''':
+<source lang='bash'>mkdir -p ~/work/Prochlorococcus/BlastP
+~/work/scripts/blastp_intra.pl
+squeue -l -u $USER
+ls BlastP | wc -l
+</source>
+<pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
+Question 1.6:
+Explicitez les paramètres de blast utilisés dans le script blastp_intra.pl.
+Combien de fichiers attendez-vous?
+</pre>
+-->
+====Paire de genomes====
+<source lang='bash'>
+mkdir -p ~/work/Prochlorococcus/BlastP
+</source>
+Exemple :
+<source lang='bash'>
+module load bioinfo/ncbi-blast-2.7.1+
+srun -n1 -l blastp -query ~/work/Prochlorococcus/peptide/Aaaa.faa -db ~/work/Prochlorococcus/peptide/Aaaa.faa -seg yes -dbsize 100000000 -evalue 1e-5 -outfmt 6 -num_threads 1 -out ~/work/Prochlorococcus/BlastP/Aaaa_Aaaa.tab
+</source>
+<pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
+Question 1.6:
+Explicitez et justifiez les paramètres de blast utilisés dans votre script.
+</pre>
+====Boucle sur les génomes====
+Utilisez ''sarray'' pour réaliser les ''blast'' en toutes les paires de génomes.
+MSK
+<syntaxhighlight lang="bash">
+evalue=1e-5
+dbsize=100000000
+for i in ~/work/Prochlorococcus/peptide/*.faa;
+do
+  ip=$(basename $i .faa)
+  for j in ~/work/Prochlorococcus/peptide/*.faa;
+  do
+    jp=$(basename $j .faa)
+    outfile="~/work/Prochlorococcus/BlastP/"$ip"_"$jp".tab"
+    echo "module load bioinfo/ncbi-blast-2.7.1+; blastp -query $i -db $j -seg yes -dbsize $dbsize -evalue $evalue -outfmt 6 -num_threads 1 -out $outfile;"
+  done
+done > blast_allall.sh
+cat blast_allall.sh
+</syntaxhighlight>
+<source lang='bash'>
+sarray -J mkdb -o %j.out -e %j.err -t 01:00:00 --cpus-per-task=1 blast_allall.sh
+squeue -l -u $USER
+</source>
+<!--
+Pour les blastp inter génomes, nous allons utiliser un script similaire au précédent, mais avec une double boucle (sur -query et -db).
+<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
+cd ~/work/Prochlorococcus
+~/work/scripts/blastp_inter.pl
+squeue -l -u $USER
+ls BlastP | wc -l
+</pre>
+-->
+vérifiez que les fichiers de sorties de blast sont présents et non vides.
+<pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
+Question 1.7:
+Combien de fichiers attendez-vous?
+</pre>
+----
+*retour à [http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique#Pr.C3.A9liminaires Atelier de Phylogénomique]