dockerでfastq-dump(続き)
- Docker
前のエントリを書いたら、pfastq-dumpを作っている@iNutさんからまた別のFASTQファイルを生成するdockerコンテナを教えてもらった。
docker run --rm -v "$(pwd)":/data -w /data
inutano/sra-toolkit fastq-dump --split-files SRR1864696.sra
こちらの場合は、コマンドラインを見ての通り、すでにSRAファイル(.sra)を前もってローカルにダウンロードしておかねばならないが、この方がネットワークトラフィックも少なく、かなり高速である。前の例では約1時間かかった17Mreadほどのこれも3分程で。
また、この例のSRR1864696はPaired end readなので、ペアごとに別のFASTQファイルに分割する必要があるが、そのオプションである--split-filesも上記の例のように足せば問題なく反映される。
そして、データ取得も海外からではなく、日本の遺伝研にあるDDBJにあるSequence Read Archive(SRA) からダウンロードしてくることで高速になる(DDBJ sequence Read Archive (DRA)とも呼ばれる)。
そういうわけでこちらのdockerコンテナを使ったほうが高速でネットワークにもやさしいようである。