配列セットを取得する(getentry編)

前回の配列セットを取得するはTogoWSを使うものでした。TogoWSは汎用で前回例で示した塩基配列データベース以外のデータベースにも使えるので便利なのですが、取得が1エントリづつで遅いという欠点がありました。

塩基配列に限っては、DDBJのgetentryを使うという方法が数万のエントリ取得において劇的に早いことが関係者の方の手助けを得て分かりました。 前回紹介したAK377185-AK388575の連番エントリを一気に取るには、以下のコマンド(curl)でいいようです。

[shell] curl -o fasta.txt.gz 'http://getentry.ddbj.nig.ac.jp/getentry/na/AK377185-AK388575/?format=fasta&filetype=gz&trace=false&show_suppressed=false&limit=0' [/shell]

これでfasta.txt.gzに一万超エントリのFASTA形式ファイル(+gzip圧縮)が得られます。もちろん、シングルクオートの中身(URL) [shell] http://getentry.ddbj.nig.ac.jp/getentry/na/AK377185-AK388575/?format=fasta&filetype=gz&trace=false&show_suppressed=false&limit=0 [/shell] をブラウザで叩いても同じです。ファイルがダウンロードできます。 URL中のAK377185-AK388575はAK377185からAK388575連番でデータを取得するという意味です。また、format=でfastaを、filetype=でgzを指定してあるので、FASTA形式で、gzip圧縮のファイルがダウンロードできます。 つまり、上記URLに必要な設定が埋め込まれています。その他、詳しいパラメーターなどはヘルプを参照して下さい。


Written by bonohu in misc on 月 21 10月 2013.