配列データセット大量取得と網羅的配列類似性解析

古典的なモデルでない生物を実験材料として使う際、当然モデル生物データベースは用意されていないので、自らが配列類似性の解析をする必要がある。色々やり方があるが、Ensemblを利用したやり方を以下に。

[shell] lftp <<-END ftp://ftp.ensembl.org/pub/release-78/fasta/ find END [/shell]

でftpサイトにあるファイルリストを得る。この中のHomo_sapiens.GRCh38.pep.all.fa.gzなどがタンパク質配列のファイルで、それらだけを取ってこれるように以下のようなUNIXコマンドを組み合わせてダウンロードすべきファイルリストを作成する。

[shell] grep /pep/ ls-R.txt | grep all.fa > pep.fa.txt [/shell]

そして、これらの先頭に'GET 'をつけ、 [shell] perl -i~ -pe 's/^./GET ./' pep.fa.txt [/shell]

lftpのシェルスクリプトに貼り付けデータ取得してくる。 [shell] lftp <<-END ftp://ftp.ensembl.org/pub/release-78/fasta/ GET ./homo_sapiens/pep/omo_sapiens.GRCh38.pep.all.fa.gz ... END [/shell]

上記のスクリプトを00getfa.shとすると、以下の様なコマンドでlftpを実行する。

[shell] sh 00getfa.sh [/shell]

そして、それらのファイルの圧縮を解凍し、 [shell] gunzip *.fa.gz [/shell] makeblastdbコマンドでBLASTが実行できるようにセットアップする。

[shell] foreach f (*.fa) makeblastdb -in $f -dbtype prot -hash_index end [/shell]

あとはそれぞれ(もしくは全てに対して)BLAST。過去のエントリ参照


Written by bonohu in misc on 火 20 1月 2015.