SRA形式ファイルの料理法
以下の様な声をたまに聞く。
DDBJのDRAにはFASTQ形式のファイルがなくてダウンロードできない
と。FASTQ形式はテキスト形式で、圧縮しない状態ではディスク容量を喰う。ブログエントリを書いている2015年8月末時点ですでに約2.5ペタバイトものデータ容量がSRAだけであり、その中間ファイルとか含めると…。そのためにFASTQ形式そのものでは保存されておらず、SRA形式という圧縮もかかった形式で利用可能となっている、というのがそれに対する答え。
ではSRA形式はどう処理すればよいのか?FASTQ形式のファイルに変換できるのか?それには、NCBI謹製のSRA Toolkitを使えば良い。様々なプラットフォーム向けのそれがダウンロードサイトから利用可能となっている。Macならhomebrewで
[shell] brew install -v homebrew/science/sratoolkit [/shell]
このSRA Toolkitの中のfastq-dumpというプログラムを使えばFASTQ形式のファイルが得られる。
[shell] fastq-dump hoge.sra [/shell]
ただ、ペアエンドのSRAエントリの場合には以下のようにしてファイルが分割されるように指示してやる必要がある。
[shell] fastq-dump --split-files hoge.sra [/shell]