SayaMatcherはどうなったのか?
かつて埼玉県狭山地方に勤務していた時にSayaMatcherという計算する仕組みを作って、転写因子結合配列などをゲノム配列から探しだし、それらをBED形式やらで出力し、ゲノムブラウザ上で見れるようにしていました(Bono HU: Gene, 364, 74-8, 2005)。それから10年あまりが経ち、個人のゲノム配列がかつての技術目標であった千ドルほどで決定できる時代になってしまいました。suffix array技術を生命科学データベースに応用し、RefSeqのデータに対して検索できるようにするGGRNA(ググるな)を2011年から開発し、さらにそれをゲノム配列に特化して検索できるようにしてGGGenome(ゲゲゲのむ)を開発しました。 GGGenomeを使うことで、かつてEMBOSSのプログラム(dregやfuzznuc)を使って時間をかけて計算していたのが数秒で答えが返ってくるようになりました。その結果、GGGenomeのAPIならびにその出力オプションにbedを指定することで、その計算結果をUCSC Genome Browserなどで表示させることが可能となりました。 かつてはChIP(クロマチン免疫沈降)実験した結果をマイクロアレイで検出して、その結果とそれまでに知られていた転写因子結合配列がどう違っているか、そういった目的に使っていました。現在ではChIP-seqというかたちでハイスループットに実験が可能となり、しかもそれらのデータがすでに定量され、UCSC Genome BrowserからTrackとして利用可能になっています。生命科学者は、手元のGenome Browserを自分の好みに合わせてカスタマイズすることで、それら複数の結果の比較検討ができるようになっています。 というわけですので、SayaMatcherはGGGenomeへと「進化した」と考えていただいてよいと思います。DBCLSに来た記念日に、この9年でやってきたことを思い返してみて、これまであまり書き記していなかったな、という反省から。他のプロジェクトに関してもいい機会なのでまとめてみたいと思います。