ゲゲゲのゲノム
配列パターン検索はリファレンスゲノム中に探すのであれば、ゲゲゲのゲノムことGGGenomeでやるのが手っ取り早い。ゲノム中で一気に探しておいて、その領域がどういった場所であったかは後で絞り込むというやり方で。 AGGTCANNNTGACCTというパターンに一塩基ミスマッチを許してヒトリファレンスゲノム(hg38)中に探すのであれば、以下のURLで。
<a href="http://gggenome.dbcls.jp/hg38/1/AGGTCANNNTGACCT" target="_blank">http://gggenome.dbcls.jp/hg38/1/AGGTCANNNTGACCT</a>
また、この結果を大量取得するには。例えばGFF3で保存するときにはURLの最後に.gffをつければGFF3形式で保存できる。 [shell] curl -O http://gggenome.dbcls.jp/hg38/1/AGGTCANNNTGACCT.gff [/shell] てな具合に。結果はカレントディレクトリにAGGTCANNNTGACCT.gffというファイル名で。GFF3形式の他に、単なるテキスト(txt)、コンマ区切りCSV形式(csv)、BED形式(bed)、jsonに対応していて、今回URLにgffと書いたところをそれぞれの形式名に置き換えればよい。 fuzznucを使った配列パターン検索よりも配列DBを自分で用意する必要なく、簡単。しかし、リファンレスゲノムがきっちりと公開されている生物種限定。そして、どう使うかはデータ解析する研究者次第。Good luck!