並列版 fastq-dump

探したらやはりあった、並列版のfastq-dump。これはpythonによる実装でインストールがちょっと…。さらに探したら、身近にbashでのimplementationを公開している方がいたw。こちらのほうがインストールが楽じゃないかと。そういうわけで、

pfastq-dump --threads 8 --outdir fq/ DRR045547.sra

てな感じで。pfastq-dumpはcurrent directoryに一時ファイルを作る。HD上で実行するとそれはおそくなるかもしれないので、SSD上のどこか、たとえば/tmp/などを指定したら早くなるかもということで。< ペアエンドのファイルに対しては、以下の例のように--split-filesを指定。

pfastq-dump --threads 6 --outdir fq/ DRR068893.sra 
--tmpdir /tmp/ --split-files

ベンチマーク取っていないのでどれぐらい早くなったかは現状不明。でもpbzip2と同じく、普段使うコマンドとしてfastq-dumpに置き換えて使っていくつもり。


Written by bonohu in misc on 火 20 6月 2017.