SRA形式ファイルの料理法

Written by bonohu in misc on 火 25 8月 2015.

以下の様な声をたまに聞く。

DDBJのDRAにはFASTQ形式のファイルがなくてダウンロードできない

と。FASTQ形式はテキスト形式で、圧縮しない状態ではディスク容量を喰う。ブログエントリを書いている2015年8月末時点ですでに約2.5ペタバイトものデータ容量がSRAだけであり、その …

Continue reading »



blast2html

Written by bonohu in misc on 日 23 8月 2015.

paintBLASTとか知っているだろうか?かつてNCBIのウェブサイトでBLAST検索した時に上部に、queryのどの部分にDB中の配列がマッチしたかを可視化してくれるクリッカブルイメージがあったと思うのだが、それを生成するためのツールがそれだったと思う。 それを使ってBLASTの結果を可視化したいと思い、探したのだが、どうも維持されてい …

Continue reading »


圧縮を並列化

Written by bonohu in misc on 土 22 8月 2015.

データ量は大きくなるばかりで、それをファイル圧縮して保存しておくなり、転送するなりが当たり前になっている …

Continue reading »


SPARQLthon35

Written by bonohu in misc on 火 11 8月 2015.

2015/08/10-11は、DBCLS三島というか、DDBJのある国立遺伝学研究所にてSPARQLthon35回目。前回の続きで、SRAに登録されているものの遺伝子発現データベースに登録されていないエントリがどれぐらいあるかの調査。予想に反して多かったので、別ソースでIDの対応が付けられないか、SRAをやっている同僚の仲里さんに手伝ってもらって対応をとってみた。

前回、5234ものRNAseqのSRAエントリがBioProjectID単位でArrayExpress(GEO)に載っていないというショッキン …

Continue reading »



SPARQLthon34

Written by bonohu in misc on 金 17 7月 2015.

2015/07/16-17の両日は、SPARQLthonの34回目でDBCLS柏。前回からやっている、SRAに登録されているものGEOやArrayExpressといった遺伝子発現データベースに載っていないデータをリストアップしてみようの続き。比較するために、BioProjectのIDに変換して同じだたかどうかを判定。データゴニョゴニョは前回でやっていたので、それの解釈が主な …

Continue reading »



SPARQLthon33

Written by bonohu in misc on 火 23 6月 2015.

2015/06/22-23の両日は、SPARQLthonの33回目でDBCLS柏。以前より、この会で取り組み続けている「NGSデータ解析ツールのDocker化とその環境づくり」を続けてやっているところ。最近は主にRNAseqデータの定量をするためのそれに取り組んでいます。日本のSRA(=DRA)に登録され …

Continue reading »




ツキとあたしとfigshare

Written by bonohu in misc on 日 10 5月 2015.

外部での講演、講義、研究打ち合わせが続いた2015年春の大型連休の前後だった。並行していろいろ書き物。振り返ってみると悲しいことを忘れようと …

Continue reading »


GFFでIGVにアノテーションを表示する

Written by bonohu in misc on 金 24 4月 2015.

IGVに表示するためのGFFを出力する捨てコード(Perl)書き。入力はBLASTの結果のタブ区切り出力(-outfmt 6指定して出てくるもの)。以下のコードをhoge.prlとして、 [shell] perl hoge.prl sample1 < BLASTout.txt > BLASTout.gff [/shell] のようにして使う。

9カラム目のattributesは任意だと思っていたのだが、こ …

Continue reading »


NCBI HomologeneのFASTA出力ヘッダを生物種名に変更

Written by bonohu in misc on 水 22 4月 2015.

NCBI Homologeneからいろんな生物種でのある遺伝子のホモログをリストアップした際、デフォルトではそれのmultiFASTA形式ファイルでgiとRefSeqのIDがラベルとなって出力される。それでは人間様にとってはぱっと見わかりにくいので、FASTAヘッダ中に[Homo sapiens]のように含まれている …

Continue reading »


匍匐前進

Written by bonohu in misc on 月 13 4月 2015.

年度初めからショッキングな出来事が多く、仕事がなかなかはかどっている感じがしませんし、実際そうだと思いま …

Continue reading »


突然のreboot

Written by bonohu in misc on 土 04 4月 2015.

- Docker

前日に引き続き。同じようにO/Nでtophat走らせていたが、やっぱり突然virtualboxがreboot。なんなのだろう?

root@21ee049caf37:/data# tophat -o test_out -p 12 -r 100 hg19 1_1.fastq 1_2.fastq

[2015-04-03 01 …

Continue reading »


Tophat2 on docker in Mac

Written by bonohu in misc on 金 03 4月 2015.

- Docker

昨晩帰りがけにO/Nでのrunを仕込んだので、時間はかかるが一晩で終わるかと思いきや、途中でVirtual box自体が落ちてて終わらず。

仕方がないので、1万readに絞ったデータセットを作って、それで実行。すると …

Continue reading »


SPARQLthon31

Written by bonohu in misc on 木 02 4月 2015.

- Docker

SPARQLthonが、職場のある三島での開催の今回。だが、自分は引き続きDockerでbioなツールを動かす系の構築に勤しむ。今回のキーワードは、「ゆくゆくはSPARQLを知らないといけない」。

前回のhackathon後、de novo transcriptome assembly系のTrinityをDocker上で動かすことを試みた。プ …

Continue reading »


ブログ回帰

Written by bonohu in misc on 水 01 4月 2015.

twitterによる情報発信に依存するようになってもう5年以上になるだろうか。引っ越しする前の職場では多くのアルバイト学生さんが居て、彼らに自分たちの仕事や状況を伝えるのに便利な …

Continue reading »


Picard MarkDuplicates

Written by bonohu in misc on 月 23 3月 2015.

NGSな変異解析にはsamtoolsの他にGATKやPicardといったツールを使うらしい。Picardだが、「ピカール」と読むらしい実は「ピカード」という英語発音らしい。インストールはいつものhomebrew。

[shell] brew install -v picard-tools [/shell]

いろいろ …

Continue reading »


cuffdiffの怪

Written by bonohu in misc on 土 21 3月 2015.

cufflinksに含まれるプログラムのcuffdiffは発現差を調べるのに有用なのだが、うまく動かないことも。その場合にしたこととして、 -pまたは--num-threadsで指定するthread数の指定を減らす、それでもダメな場合は1に。 また、IDとNAME両方が一番右っかわのカラムにないとcuffdiffがセグフォするらしい。無理やり書く捨てコード(実 …

Continue reading »


samtools sort の並列化

Written by bonohu in misc on 日 15 3月 2015.

samtoolsのsortは結構時間がかかります。新しいバージョン(1.2で確認)だと、-@というオプションを付ければ並列化されます。

[shell] samtools sort -@ 4 -T /tmp/hoge -o hoge_sorted.bam hoge.bam [/shell]

としたと …

Continue reading »



SPARQLthon30

Written by bonohu in misc on 金 13 3月 2015.

理研和光にて。NGSなツールたちをDocker上で実行するための検討を引き続き。 そのためにはそれぞれのツールを実際に動かしてみないと、ということでいろんなツールの使い方 …

Continue reading »


MacBookProのセットアップ2015

Written by bonohu in misc on 木 26 2月 2015.

MacBookProを使える状態にセットアップする機会があり、自分で能動的に入れたものをメモとして残しておく。

  • Xcode: 必須

  • Homebrew: macosx用パッケージマネージャー

  • vagrant: docker on macosx

  • Java: 最初から入っていないので

  • skype: chat用

  • f.lux …

Continue reading »



Trinity on docker in Mac

Written by bonohu in misc on 土 14 2月 2015.

- Docker

SPARQLthon29では何故かネットワークの調子も悪く(DHCPが急に取れなくなったり)。容量の大きなFASTQファイルが手元になく、ダウンロードしてくることもかなわず、実行できずじまい。そこで、RNAseqなFASTQファイルを入手してdocker runのテスト。coreos上で [shell] coreos> docker run -it -v pwd:/data aewing …

Continue reading »





BioDockerthon the last day

Written by bonohu in misc on 金 06 2月 2015.

- Docker

国内版Biohackathon(BH14.14)最終日。これまでやってきたことは

にすべてアップ。つくったDocker imageは以下の4つ。

  1. hmmemit

  2. debian-hmmsearch

  3. debian-hmmsearch2 (profileHMMと検索対象DBがdocker runの引数として選べる)

  4. ubuntu-tophat

ubuntu-tophatに関しては、defaultのcoreosでは動かないという問題点あり。現状判明し …

Continue reading »


BioDockerthon day4

Written by bonohu in misc on 木 05 2月 2015.

- Docker

国内版Biohackathon(BH14.14)4日目。昨日までのhmmerとは打って変わってより実際的なNGS解析のそれをということで、RNAseqにおけるspliced read mapperとしてデファクト・スタンダードのtophatを実行するそれに挑戦。 tophatのパッケージがdebianにはないらしいということで、ubuntuベースに。昨日まで作っていたhmmsearch用のDockerfileと同様に実行部分はシェルスクリプトに分けて実装。DockerhubのAutomated Buildを利用しているため、ファイル自体はgithubにあるが、再 …

Continue reading »


BioDockerthon day3

Written by bonohu in misc on 水 04 2月 2015.

- Docker

国内版Biohackathon(BH14.14)3日目。今日もDockerチームにて。昨日作成したhmmsearchを実行するDockerfileの汎用化。引数としてprofile HMMと検索対象DBを指定できるように。最後の行でしか引数指定できないようなので、別にシェ …

Continue reading »


Docker on CoreOS on Mac day2

Written by bonohu in misc on 火 03 2月 2015.

- Docker

国内版Biohackathon(BH14.14)2日目。まずは、昨日の続き。DockerfileをDockerHubに表示したいということで、GitHubとDockerHubの連携をやってみる。

まずは、'New repository'から新規に作成し(hmmemitという名前)、必要なファイルをgithubに上げる。 [shell] git add Dockerfile Sod_Cu.hmm git commit -m "first commit" git push -u origin master [/shell …

Continue reading »


Docker on CoreOS on Mac

Written by bonohu in misc on 月 02 2月 2015.

- Docker

国内版Biohackathon(BH14.14)1日目。色々話しあった結果、Dockerチームとして活動することに。これまでローカルに動かしてきた解析スクリプト(レシピ)をDockerfileとして記述していこうかということで。まずは動かし方を。

[shell] brew tap phinze …

Continue reading »




2015年の計

Written by bonohu in misc on 日 04 1月 2015.

2014年は職場の二度の引っ越し(3月に1回、4月にもう1回)でバタバタしていたこともあり、講演活動は前年ほど回数はなかったものの、新しく移った先近くで複数回実 …

Continue reading »


ダブルクリックしてシェルスクリプト実行

Written by bonohu in misc on 土 27 12月 2014.

MacOSXでシェルスクリプトなどのスクリプト言語をダブルクリックして実行するには、

  1. スクリプトのファイル名に.commandという拡張子を使う(例: hoge.command)

  2. ファイルに実行権を付与する。すなわち chmod +x hoge.command しておく

  3. スクリプトの先頭 …

Continue reading »


tophatのインストール

Written by bonohu in misc on 火 09 12月 2014.

Macosxの場合のtophatのインストールコマンド。もちろん、tophatのサイトからバイナリファイルを取ってきてそれを使うのでもいいのですが、tophatから呼び出される依存関係のあるプログラムも同時にインストールしてくれる点でhomebrewが便利なので、こちらを推奨します。

[shell] brew tap homebrew/science -v brew install -v tophat [/shell]

sratoolkitは、tophatとは依存関係がないものの、公共NGSデータベースのSRA(Sequence Read Archive)からダウンロードしてきたデータ …

Continue reading »


bamの切った貼った

Written by bonohu in misc on 月 08 12月 2014.

Reference genome配列に対するmappingの結果ファイル、bam。そこから特定の染色体などの場所を絞り込んだデータだけを作成する場合に以下のsamtoolsのオプションが大変有効です。 複数のbamファイル(1.bam 2.bam 3 …

Continue reading »



NO DATABASE, NO RESEARCH. DBCLS

Written by bonohu in misc on 木 27 11月 2014.

「種を超えて保存された生理代謝機構の解明に向けて:データベースによるアプローチ」と題して、第37回日本分子生物学会年会にてフォーラムという枠をいただいた。そもそもワーク …

Continue reading »


目訴本

Written by bonohu in misc on 月 24 11月 2014.

amazonにも目訴本のエントリが。Ensembl, Jalview, InterPro, GEO/ArrayExpressの項のほか、第1部の「ウェットな研究にデータベースやウェブツールを役立てるための秘訣」とい …

Continue reading »


Biohackathon2014終了

Written by bonohu in misc on 日 16 11月 2014.

宮城県松島で開催されたBiohackathon2014に参加してきました。目標にあげた、複数のマシンに分かれてやっているAOEのデータ更新の仕組みの統合化とgithubでの公開は達成しました。そして、データ更新も開発者がいる …

Continue reading »