ぼうのブログ

'Mishima.syk #8'

Written by bonohu in misc on 日 29 5月 2016.

今回が8回目のMishima.syk（三島創(製?)薬勉強会）。三島で開催されたSPARQLthon44の次の日に開催をはたらきかけて、異分野交流を目論んでみた。み …

Continue reading »

Trinityで転写産物を定量する

Written by bonohu in misc on 金 27 5月 2016.

Trinityの出力結果は、転写単位ごとの塩基配列のFASTA形式ファイルだが、付属のプログラム(align_and_estimate_abundance.pl)を使うと、転写量を見積もって定量、そして出力してくれる。TrinityのウェブサイトのTrinity …

Continue reading »

Trinity on MacOSX

Written by bonohu in misc on 月 09 5月 2016.

de novo transcriptome assemblyをするソフトウェアの定番のTrinityがhomebrewで入って動くようになりました(v2.2.0)。これまでhomebrewには入っていたものの、私の環境ではきちんのインストールできないでいました。必要なときはその都度DDBJのスパコンにお世話になっておりました。それ …

Continue reading »

データベースとは1

Written by bonohu in misc on 水 04 5月 2016.

昨今、インターネット上には利用可能なデータリソースが溢れている。データベース(DB)とは、生命の持つ情報を再利用 …

Continue reading »

圧縮したファイルで処理する

Written by bonohu in misc on 日 17 4月 2016.

NGSデータ解析の出発点は、シーケンサーやSRA (Sequence Read Archive)から取得したFASTQ形式のファイルなのは同じだろうが、これを圧縮しない(ファイル拡張子が.fqや.fastqのことが多いが、ようするにテキスト形式のフ …

Continue reading »

行番号を付ける

Written by bonohu in misc on 月 11 4月 2016.

バイオの業界ではとくに、IDが重複していることがある。Rでの処理の場合、それでは入力が受け付けてもらえず実行できないことがよくある。そんな時には行番 …

Continue reading »

joinコマンドの出力をタブ区切りに

Written by bonohu in misc on 水 06 4月 2016.

joinというUNIXコマンドは、2つのファイルの同じ値のある行をjoinして、一行にまとめてくれるコマンド。

join -j 1 file1 file2

でタブ区切りテキストのfile1とfile2の一番左側のカラムの値が同じ行が結合されて出力される。

このコマンドのやってくれる事 …

Continue reading »

scikit-learnのインストール

Written by bonohu in misc on 水 30 3月 2016.

pythonの機械学習ライブラリ。ふとしたキッカケで入れてみようと、思い立ったが吉日。

pythonのバージョン3が入っていなければ、まずそれを。

[shell] brew install -v python3 [/shell]

これでインストールされるpip3を使って必要なライブラリを …

Continue reading »

RNA-Seq実験ハンドブック

Written by bonohu in misc on 土 19 3月 2016.

RNA-Seq実験ハンドブックという本が出版されます。出版社のページによれば~~2016年03月23日発行予定とのこと~~(2016年3月発行予定に変わっていました)。「RNA-Seqはこうして誕生したーそしてデータ再利用へ」と題したコラムを書かせてもらいました。短いですが、遺伝子発現解析の歴史的な …

Continue reading »

第60回人工知能学会分子生物情報研究会(SIG-MBI)

Written by bonohu in misc on 金 18 3月 2016.

続けて同じ場所で開催されたSIG-MBIにかなり久しぶりに参加。SIG-MBIの開催が第60回にもなっていたとは。続けて開催されているのは大変素晴らしい。敬意を表します …

Continue reading »

BH15.15成果報告会と第20回オープンバイオ研究会

Written by bonohu in misc on 木 17 3月 2016.

朝からみんなでバスでJAISTに移動して成果報告会。遺伝子発現目次の進捗状況に関して報告。いつもどおり、みんなで議論して情報を共有した …

Continue reading »

BH15.15 3日目

Written by bonohu in misc on 水 16 3月 2016.

ArrayExpressのメタデータにBioProjectがなかったので、GEO由来のエントリだけでもBioProjectIDが付けられないか模索中…。すべてのデータをスクレイピングする以外に解決法はないのか?いろいろ調べた結果、結局bioprojectのXML(bioproject.xml)から生成する …

Continue reading »

BH15.15 2日目

Written by bonohu in misc on 火 15 3月 2016.

2日目は抽出したメタデータの抜けをチェックして出来る限り取りこぼさないようparserを改良。1つのメタデータに複数のデータ単位が含まれていることをランチ前に発見して、ランチタイム遅延。対処する目処をつけてからカレー、その後本格実装。タグの多様性がみとめられたので、IDの正規表現で最悪補完できるようにした。その …

Continue reading »

BH15.15 1日目

Written by bonohu in misc on 月 14 3月 2016.

今日2016年3月14日から、国内版Biohackathon(BH15.15)。2015年15月ということで、2016年3月の開催となったが、このパターンでの開催もついに今回で最後(というかルール破綻)になるとのこと。「SRA/BioProject/BioSample etc …

Continue reading »

あれから5年

Written by bonohu in misc on 金 11 3月 2016.

これからどうなるのか。そう思ったあの日から5年経ち、活動本拠地は静岡県三島市の国立遺伝学研究所に移動したものの …

Continue reading »

標準出力と標準エラー出力をまとめる

Written by bonohu in misc on 金 04 3月 2016.

UNIXのコマンドラインには標準出力と標準エラー出力があります。プログラムの出力結果は通常標準出力で、

[shell] sh run.sh > log.txt [/shell]

とすることでlog.txtにその出力結果が記録されます。このようにしてもまだ画面に何か表 …

Continue reading »

タブをgrep

Written by bonohu in misc on 木 03 3月 2016.

grep便利ですね。タブ区切りのテキストで必要な情報を持つ行だけ取ってくるとか、多用されます。ですが、 [shell] grep chr1 hoge.gff [/shell] では1番染色体(chr1)の …

Continue reading »

samtools view も並列化

Written by bonohu in misc on 水 02 3月 2016.

ときすでにsamtoolsのバージョンは1.3。single threadで遅く、時にはそれが律速になっていたsambam変換も並列化されている。 samtools sortの時と同様に、-@フラグで使用するCPU数を指定。例えば、

[shell] samtools view -@ 8 -bS file.sam > file …

Continue reading »

'ファイルの移動方法: tar編'

Written by bonohu in misc on 火 01 3月 2016.

大量のファイルの移動が必要な季節になってきましたが、我々DB屋は年がら年中です。複数のディレクトリ階層構造を持ったファイルの同 …

Continue reading »

統合データベース講習会AJACSa三島2やりました

Written by bonohu in NGS_DAT on 月 29 2月 2016.

中上級向けの統合データベース講習会AJACSadvanced(AJACSa)の第二弾として、2016年2月25日と26日の両日、国立遺伝学研究所内のDBCLS三島の講習スペースにてAJACSa三島2を実施しました。参加者は …

Continue reading »

統合データベース講習会AJACSa三島2やります

Written by bonohu in NGS_DAT on 火 23 2月 2016.

すでにDBCLSのニュースでもアナウンスしておりますが、2016年2月25日と26日の両日、国立遺伝学研究所内になるライフサイエンス統合データベースセンターにて、統合データベース講習 …

Continue reading »

SPARQLthon41

Written by bonohu in misc on 水 17 2月 2016.

2016年2月16,17日に理研和光にてSPARQLthon41に参加。引き続き、DBCLSで開発中の遺伝子発現目次AOEに公共遺伝子発現データベースArrayExpress(含むGene Expression Omnibus)に無いデータ(=Transcriptome sequenceによる遺伝子発現定量)を補完するのに取り組む。 SRA(Sequence Read Archive)のデータをSolrで検索できるようにしてもらったのを利用して、加えるべきデータセ …

Continue reading »

統合データベース講習会AJACS薩摩

Written by bonohu in misc on 日 31 1月 2016.

2016年1月26,27日に鹿児島大学桜ヶ丘キャンパスでの統合データベース講習会AJACS薩摩に講師として参りました。今年度、3回目。

前回参加のAJACS津軽では、遺伝子発現DBの使い方とR/Bioconductorを使ったデータ解析入門を担当し、遺伝 …

Continue reading »

command lineで github に pull request を送る

Written by bonohu in misc on 木 21 1月 2016.

統合データベース講習会の資料はmarkdownで書かれており、それらをgithub上にアップすることで講習会資料のPDFになったり、統合TVのウェブサイトから見えるようになったり、systematicに処理されるようになっています。それをアップするにはAJACS-trainingさんにpull requestを送り、以前のコンテンツと置き換え …

Continue reading »

2016年の計

Written by bonohu in misc on 金 01 1月 2016.

2015年は、5月に領域融合レビュー「次世代シークエンサーにより得られたデータの解析」を公開、10月に「次世代シークエンサーDRY解析教本」を出 …

Continue reading »

「次世代シークエンサー Dry解析教本」正誤表

Written by bonohu in NGS_DAT on 金 18 12月 2015.

印刷物には誤表示等はつきものですが。Dry解析教本にもそれが見つかってまいりました。とくにUNIXのコマンドに間違いがあるものは問題ですが、そのタイプのものも見つかってきたのでこちらでも。公式な正誤 …

Continue reading »

sequenceserver

Written by bonohu in misc on 木 29 10月 2015.

先月のBioHackathonで参加者たちがそれぞれに持ってきた研究紹介のパンフレットを見ていて発見したのが、このsequenceserver。何の事はない、Ruby製のlocalBLASTのGUIなinterfaceなのだが、これがinteractiveに複数BLASTをかけてそのalignmentの結果をチェックしたい時になかなか便利。便利だと思っている点をまとめると

それはqueryに対してどこにヒットしたかという、かつてのpaintBLAST的な出力がトップに出る
queryをコピペしたら塩基配列かアミノ酸配列か自動判別してくれる
検索対象のDBが …

Continue reading »

細胞工学別冊「次世代シークエンサー Dry解析教本」

Written by bonohu in NGS_DAT on 水 07 10月 2015.

いよいよ出版されます。本日、2015年10月8日からの第74回日本癌学会学術総会@名古屋国際会議場にて先行発売されます。私自身、今年も癌学会学術総会に出席してお …

Continue reading »

トーゴーの日シンポジウム2015

Written by bonohu in misc on 月 05 10月 2015.

今年も、10月5日にトーゴーの日シンポジウム。今年は2日にわたって、東京大学弥生講堂・一条ホールにて。全体的な印象としてはデータベ …

Continue reading »

BioHackathon2015

Written by bonohu in misc on 月 14 9月 2015.

2015年9月14日〜18日までの丸一週間、長崎にてBioHackathon2015に参加中。ハッシュタグは #biohack15。今回は、AOEにGEO/ArrayExpressに入っていないRNA-seqデータを含めて、名前の通りAll of Gene expressionデータが検索できるようにしようと目論んでおります。これまで同様、それらのスクリプト …

Continue reading »

SRA形式ファイルの料理法

Written by bonohu in misc on 火 25 8月 2015.

以下の様な声をたまに聞く。

DDBJのDRAにはFASTQ形式のファイルがなくてダウンロードできない

と。FASTQ形式はテキスト形式で、圧縮しない状態ではディスク容量を喰う。ブログエントリを書いている2015年8月末時点ですでに約2.5ペタバイトものデータ容量がSRAだけであり、その …

Continue reading »

統合データベース講習会AJACS津軽

Written by bonohu in misc on 月 24 8月 2015.

2015年9月3,4日に弘前大学での統合データベース講習会AJACS津軽に講師として参ります。今年度二回目の「代表招集」。

前回、大阪大学吹田キャンパスでの …

Continue reading »

blast2html

Written by bonohu in misc on 日 23 8月 2015.

paintBLASTとか知っているだろうか?かつてNCBIのウェブサイトでBLAST検索した時に上部に、queryのどの部分にDB中の配列がマッチしたかを可視化してくれるクリッカブルイメージがあったと思うのだが、それを生成するためのツールがそれだったと思う。それを使ってBLASTの結果を可視化したいと思い、探したのだが、どうも維持されてい …

Continue reading »

圧縮を並列化

Written by bonohu in misc on 土 22 8月 2015.

データ量は大きくなるばかりで、それをファイル圧縮して保存しておくなり、転送するなりが当たり前になっている …

Continue reading »

SPARQLthon35

Written by bonohu in misc on 火 11 8月 2015.

2015/08/10-11は、DBCLS三島というか、DDBJのある国立遺伝学研究所にてSPARQLthon35回目。前回の続きで、SRAに登録されているものの遺伝子発現データベースに登録されていないエントリがどれぐらいあるかの調査。予想に反して多かったので、別ソースでIDの対応が付けられないか、SRAをやっている同僚の仲里さんに手伝ってもらって対応をとってみた。

前回、5234ものRNAseqのSRAエントリがBioProjectID単位でArrayExpress(GEO)に載っていないというショッキン …

Continue reading »

byobu使ってみた

Written by bonohu in misc on 木 06 8月 2015.

screenの使い方の投稿の修正をポストしたついでにtwitterに流したら、byobuというものがあってこっちのほうがナウでヤングだという御意見を頂戴する。Linuxでの紹介記事も教えてもらったが、

[shell] brew install -v byobu [/shell]

したらやっぱりhomebrewにもあってサクッと入った。細かい使い方は全く一 …

Continue reading »

SPARQLthon34

Written by bonohu in misc on 金 17 7月 2015.

2015/07/16-17の両日は、SPARQLthonの34回目でDBCLS柏。前回からやっている、SRAに登録されているものGEOやArrayExpressといった遺伝子発現データベースに載っていないデータをリストアップしてみようの続き。比較するために、BioProjectのIDに変換して同じだたかどうかを判定。データゴニョゴニョは前回でやっていたので、それの解釈が主な …

Continue reading »

screenコマンドでプロセスは続くよどこまでも

Written by bonohu in misc on 水 24 6月 2015.

コマンドラインでのデータ処理はすぐに終わらないものもあります。解析すべきデータ量が多い昨今、とくにその傾 …

Continue reading »

SPARQLthon33

Written by bonohu in misc on 火 23 6月 2015.

2015/06/22-23の両日は、SPARQLthonの33回目でDBCLS柏。以前より、この会で取り組み続けている「NGSデータ解析ツールのDocker化とその環境づくり」を続けてやっているところ。最近は主にRNAseqデータの定量をするためのそれに取り組んでいます。日本のSRA(=DRA)に登録され …

Continue reading »

細胞工学別冊「次世代シークエンサー Dry解析超入門(仮)」

Written by bonohu in NGS_DAT on 日 21 6月 2015.

しばらくご無沙汰になっていまいました。ネタはたまっているのですが、なかなか公開qualityに達せず。前エントリで、「薄い本」パート …

Continue reading »

領域融合レビュー「次世代シーケンサーにより得られたデータの解析」公開

Written by bonohu in misc on 月 18 5月 2015.

ぼうのブログの「2010年代のバイオインフォマティクス」カテゴリを創設したときに

概念的なまとめを書いた「薄い本」パート
「データ解析プロトコル」パート …

Continue reading »

ツキとあたしとfigshare

Written by bonohu in misc on 日 10 5月 2015.

外部での講演、講義、研究打ち合わせが続いた2015年春の大型連休の前後だった。並行していろいろ書き物。振り返ってみると悲しいことを忘れようと …

Continue reading »

GFFでIGVにアノテーションを表示する

Written by bonohu in misc on 金 24 4月 2015.

IGVに表示するためのGFFを出力する捨てコード(Perl)書き。入力はBLASTの結果のタブ区切り出力(-outfmt 6指定して出てくるもの)。以下のコードをhoge.prlとして、 [shell] perl hoge.prl sample1 < BLASTout.txt > BLASTout.gff [/shell] のようにして使う。

9カラム目のattributesは任意だと思っていたのだが、こ …

Continue reading »

NCBI HomologeneのFASTA出力ヘッダを生物種名に変更

Written by bonohu in misc on 水 22 4月 2015.

NCBI Homologeneからいろんな生物種でのある遺伝子のホモログをリストアップした際、デフォルトではそれのmultiFASTA形式ファイルでgiとRefSeqのIDがラベルとなって出力される。それでは人間様にとってはぱっと見わかりにくいので、FASTAヘッダ中に[Homo sapiens]のように含まれている …

Continue reading »

匍匐前進

Written by bonohu in misc on 月 13 4月 2015.

年度初めからショッキングな出来事が多く、仕事がなかなかはかどっている感じがしませんし、実際そうだと思いま …

Continue reading »

突然のreboot

Written by bonohu in misc on 土 04 4月 2015.

- Docker

前日に引き続き。同じようにO/Nでtophat走らせていたが、やっぱり突然virtualboxがreboot。なんなのだろう?

root@21ee049caf37:/data# tophat -o test_out -p 12 -r 100 hg19 1_1.fastq 1_2.fastq

[2015-04-03 01 …

Continue reading »

Tophat2 on docker in Mac

Written by bonohu in misc on 金 03 4月 2015.

- Docker

昨晩帰りがけにO/Nでのrunを仕込んだので、時間はかかるが一晩で終わるかと思いきや、途中でVirtual box自体が落ちてて終わらず。

仕方がないので、1万readに絞ったデータセットを作って、それで実行。すると …

Continue reading »

SPARQLthon31

Written by bonohu in misc on 木 02 4月 2015.

- Docker

SPARQLthonが、職場のある三島での開催の今回。だが、自分は引き続きDockerでbioなツールを動かす系の構築に勤しむ。今回のキーワードは、「ゆくゆくはSPARQLを知らないといけない」。

前回のhackathon後、de novo transcriptome assembly系のTrinityをDocker上で動かすことを試みた。プ …

Continue reading »

ブログ回帰

Written by bonohu in misc on 水 01 4月 2015.

twitterによる情報発信に依存するようになってもう5年以上になるだろうか。引っ越しする前の職場では多くのアルバイト学生さんが居て、彼らに自分たちの仕事や状況を伝えるのに便利な …

Continue reading »

Picard MarkDuplicates

Written by bonohu in misc on 月 23 3月 2015.

NGSな変異解析にはsamtoolsの他にGATKやPicardといったツールを使うらしい。Picardだが、~~「ピカール」と読むらしい~~実は「ピカード」という英語発音らしい。インストールはいつものhomebrew。

[shell] brew install -v picard-tools [/shell]

いろいろ …

Continue reading »