Category: misc

inodeの枯渇

Written by bonohu in misc on 土 13 8月 2016.

ストレージの容量は多くの場合ファイルサイズで問題になることが多いが、たくさんファイルを作るようなプログラムやデータベースを扱っているとファイルのinode数が問題になることがまれにある。その場合には、 [shell] df -i [/shell] とやってinode数をチェックする。普通 [shell] df -h [/shell] などでストレージの容量をチェックするのであるが、それと違うオプション指定でわかる。 もしストレージにまだ容量があるのに、ファイルシステムに新たにファイルが作れなくなっている場合、ひょっとしたらこれが原因かもしれません。

Continue reading »



「新米探偵、データ分析に挑む」を読んで

Written by bonohu in misc on 水 10 8月 2016.

[amazon template=thumbnail&asin=4797382309]

新米探偵本、ようやく通読。出てきたことが一度だけでなく、俵太のまとめと天羽社長の統計学指南で波状に複数回出てきて、大変わかり易い。コードの解説もまとめられてて、復習に便利。データがあらかじめダウンロード可能なようになっていて、再現も簡単だった。Rを使った統計解析入門本としてよいかと。

Continue reading »


TIBCO Spotfire アカデミックフリー化

Written by bonohu in misc on 火 09 8月 2016.

先日の沼津でのワークショップで伺った、嬉しいニュース。

アカデミアの方々などに無料でご利用頂けるようになりました。 TIBCO started free of charge Spotfire License. http://spotfire.tibco.com/better-world-donation-program/

本当かと思って、上記URLで出てくるフォームを埋めて送っていたが、返事なく。送ってから2週間以上経ち、さすがに忘れられたかと思い、もう一度送ってみると今度は一晩で返って来た。 「普通にtrialを申し込んで下さい、そしたら1年間にその期間を伸ばします」とのこと。 これでtrialで使うのではなく、正規にライセンスがいただけるように。 いきなりここから登録しなくても、まずは試してみてはいかがかと。ただMac版はないので、Parallels Desktop内で。なんといっても可視化が素晴らしい。

Continue reading »


bam2wig

Written by bonohu in misc on 木 28 7月 2016.

bam形式なリファレンスゲノムへのアラインメントの情報をwig形式のcoverageファイルへ変換。 実は昔もやったことがあり、ググって出てくるawkのワインライナーでなんとか凌いでいたが、今ネット検索するとbam2wigというコマンド化されたPerlスクリプトをgithubに発見。今回はこれを使ってみた。

[shell] git clone https://github.com/MikeAxtell/bam2wig [/shell]

でgithubからダウンロードしてきて、

[shell] ./bam2wig/bam2wig hoge.bam [/shell]

でhoge_bam2wigというディレクトリが作成され、その中にhoge.wigというファイル名でwigファイルが作成される模様。 ただ、何もオプションを付けないとゲノム全体を対象に計算がなされるので、時間がそれなりにかかる。そこで、限定した領域だけ計算する場合には-cオプションをつかって

[shell] ./bam2wig/bam2wig -c chr1:1-10000 hoge.bam [/shell]

のように実行すればよい模様。

コードを見る限り、前にもこのブログでも言及したsamtoolsがインストールされ、コマンドサーチパスにないと動かない模様。

wigに変換したデータはUCSC Genome BrowserやEnsembl Genome …

Continue reading »


'jPOST Workshop 2016 : プロテオームデータと生命科学データベース'

Written by bonohu in misc on 水 27 7月 2016.

東京白金台の北里大学薬学部にて、「ゲノムと遺伝子発現DBの現状ートランスオミクスのための基礎知識」というタイトルで、30分ほど話した。ワークショップの前座。

そのうち統合TVにアップされると思うが、とりいそぎfigshareからプレゼンを公開

Bono, Hidemasa (2016): ゲノムと遺伝子発現DBの現状ートランスオミクスのための基礎知識. figshare. https://dx.doi.org/10.6084/m9.figshare.3506273.v1 Retrieved: 06 47, Aug 01, 2016 (GMT)

Continue reading »


SPARQLthon46 day2

Written by bonohu in misc on 火 26 7月 2016.

昨日の続き。直で職場のサーバーにsshできないのはやはり不便だ。 やはり、1日経ってもファイルリストの取得、終わっていない…。定期的にrsyncするように早くしたい。が、昼前に終わったので、実体の取得を開始。仕込んでランチに。大雨だが、傘なしで死亡orz 帰還後、入力データをgithubにアップしてあるスクリプト群で作成して、ウェブサイトのデータをアップデート。ランキングは変わらず。が、2016年登録分だけみると、NGSがarrayをデータシリーズ数で抜いた模様。

Continue reading »


SPARQLthon46 day1

Written by bonohu in misc on 月 25 7月 2016.

今回はいつもと違い、DBCLSではなく新潟大学での開催ということで、RDFやSPARQLの入門的な講習会がほぼ1日開催された。こういうスタイルは新しいが、こういう形の地方行脚重要。 こちらはいつものハッカソンで、ネットワーク接続にちょっと手こずるも、あらかじめ仕込んでいたAOE更新用のindexの取得が失敗していた…orz。なぜかマシンが落ちてた模様。emobile回線に切り替え、VPN使ってログインし、USB HDをマウントして、再度開始する。

rsyncが使えるかどうか、 [shell] rsync rsync.ebi.ac.uk:: [/shell] というコマンドを実行して調べてみたところ、どうも使えるらしい。そこで、さらに継続してrsyncのオプションを調査。 例えば、ftp://ftp.ebi.ac.uk/pub/databases/arrayexpress/data/gxa/rdf/以下をcurrent directoryにrsyncしたい場合には、 [shell] rsync -av rsync://anonymous@rsync.ebi.ac.uk …

Continue reading »


SPARQLthon@新潟大学

Written by bonohu in misc on 日 24 7月 2016.

明日、明後日(2016/7/25-26)に、新潟大学にてSPAQRLthon開催(SPARQLthon46)。いつもの柏とは別の地域で開催することは、RDFの普及という意味で重要だと思う今日このごろ。そういった研究活動をしている研究者が居るところでしかできないのが難点。SPARQLthonに来るような、データベース統合化に関わっている研究者が日本全国に職を得て、普段から教育活動するようになってくれると良いのだが。今回は、まさにその実例として素晴らしい。地元の学生さんが多く参加されるようで、大変楽しみ。

Continue reading »


非モデル生物から新規モデル生物へ

Written by bonohu in misc on 土 23 7月 2016.

前職では、基礎と臨床を医学の研究をやろうということで、ノーベル賞を取った線虫(C.elegans)を使ったprogramed cell deathの研究が当時もてはやされていたこともあってそちら方面の可能性を探っていた(ちなみに、「きそ」と「りんしょう」の「いがく」の研究、ということで「きしょい」研究と銘打ってやっていたのだが、定着はしなかったようだ)。普段は土の中に潜っていて低酸素な環境に居るから良いモデルになるかも、ということで線虫を使った低酸素モデルでのトランスクリプトーム解析をマイクロアレイでやっていたものの、すでに先行研究があって別の系とのクロストークを探っていたのが10年前。 DBCLSに来てしばらくはDRY onlyだった。もちろん、データベースセンターなので、それが普通なのかもしれない。しかし、データベースの有用性を知ってもらうには、なによりも実際に使って上手くいった実例をあげていかないといけないと思うようになっていった。だが、単なるお手伝いではいけない。成し遂げるのに困難なのだが、バイオデータベースの専門家による手助けの恩恵が強い分野…これまでモデル生物とされてこなかった非モデル生物、もとい新規モデル生物におけるデータ解析研究ではなかろうか、と思うに至った。 その過程で、たまたま縁あって昆虫生化学者との共同研究が叶い、パーキンソン病モデルとしてカイコが使えるという論文を出し、さらにその続きの研究を今も進めている。 また、これまた縁あって癌や老化の新しいモデル生物として注目されているハダカデバネズミを使った研究にも関与している。ハダカデバネズミ由来のiPS細胞に関する研究の論文が出たところだが、それ以外の現象に対してもこの新規モデル生物でアプローチできないか、議論している。 それ以外にも要請あればいろいろとやっていきたいと思っている。自分の持っている研究できる時間は有限だけれども …

Continue reading »


アクセッション番号のバージョン

Written by bonohu in misc on 金 22 7月 2016.

データベース(DB)、とくに塩基配列DBは公共DBに登録しないと論文が受理されないこともあって、DBのアクセッション番号(ID)に関する認知度は高いようである。しかしながら、アクセッション番号のバージョンについては知られていないのではなかろうか? 例えば、論文を投稿する際にAB016471というアクセッション番号がついたとすると、バージョン付きのIDはAB016471.1となる。つまり.1の部分がバージョンの情報で、バージョンが上がるごとに.2、.3と変わっていくわけである。 一般的にはバージョンなしのAB016471でアクセッション番号としては流通することがおおく、この種のバージョン情報を一括で消したい場合もある。その場合に有効なのが以下のワンライナーで、一行ごとにアクセッション番号が書かれたファイルaccessions.txtに対して

[shell] perl -i~ -pe 's/.d+//' accessions.txt [/shell]

という処理をするとバージョン情報の部分を削り取ることができる。ちなみに、元のファイルはaccessions.txt~というファイル名となってバックアップされている。

Continue reading »


第16回日本スポットファイアーワークショップ(創薬研究領域)

Written by bonohu in misc on 木 21 7月 2016.

沼津でのSpotfireワークショップ2日目。今日は丸一日で、午前中はトレーニングセッション、午後はPKJ社セッションとJASPUGユーザーセッション。 自分は10年を超える長年のSpotfireユーザーではあるものの、典型的なユーザーと使い方が異なっている。昨日もSummary Tableの可視化が使えていない自分に気づくなどしたし。取りこぼしている機能が多々あるので、初心者向け体験会ということだったがトレーニングから参加。Trellisは活用していたものの、フィルタのウインドウの特定の部分をドロップしてTrellisが作れるようになっているのは全く知らなかった。それらしい機能があるのは知っていたものの使ったことがなかったCross Tableも便利だと気付かされたり。トレーニングを一通りやってみて、いろいろ得るものが多かった。 ユーザーセッションでは、大量に出てくるデータをどう見るか、それを考える姿勢に感銘を受けた。対象となるデータが違っても取り組む姿勢は大変参考になる。これまでの自分の普段のやり方で果たしていいのか、考えさせられた。もっと、自分が解析したデータを見て考えることに時間を取るべきですね。 Twitterのフォロワーさんが参加していたというのを終了してから知るなども。お会いできなかったのが大変心残り。Spotfireが広まってきたのか、この世界が狭いのか、果たして。次回の再会を楽しみに日々励もう。

Continue reading »


第15回日本スポットファイアーワークショップ(創薬研究領域)

Written by bonohu in misc on 水 20 7月 2016.

今年も沼津駅北口のプラザヴェルデで開催のスポットファイアーワークショップ。2日間開催の1日目は第15回ということで、MedChem(Medicinal Chemistry)な内容。2日目は第16回目で、バイオHCS(High Content Screening)編。 なぜMedChemな内容の1日目の今日に来たのか、訊かれたり。最近ではPubChemChEMBLがRDFでデータを提供していることもあり、本務のDB統合化でも化合物なデータの扱いも増えてきていて。かつてよりもずっと、いろんな意味で関係が深くなっている心持ちなのだが、参加者の人達にはそうとは思われていないんだろうか。そっち向けに統合DBの宣伝が足りないかもしれません。 SpotfireからNBDC/DBCLSで維持しているRDFデータの資産が直接利用できるようになるといいな、と妄想したり。

Continue reading »


スポットファイアーワークショップ2016 at 沼津

Written by bonohu in misc on 火 19 7月 2016.

明日明後日、2016年7月20,21日は昨年に引き続き、沼津駅北口のプラザヴェルデにてスポットファイアーワークショップ(創薬研究領域)が開催。今年は2日連続開催で、それぞれ第15回(Med Chem編?)と第16回(バイオHCS編)になります。かつてのスポットファイアーユーザー会長だった人間としては現在の職場近くで開かれて大変ありがたいというか、嬉しいです。このイベントのtwitterのハッシュタグはおそらく #JASPUGWS です。 一点ご注意を。ドレスコードには、ご留意下さい。「ジーンズなどカジュアルなスタイルで」、「アロハシャツも歓迎」とのことです。間違っても長袖のスーツで来られないように。梅雨も開けて、亜熱帯化した開催地では涼しい格好をしないと出歩けない状況かと思います。 蛇足ですが、沼津にアロハシャツ仕立て屋さんがあるそうです。もう間に合わないかもしれませんが、参考まで。

Continue reading »


'Shizuoka.py #5'

Written by bonohu in misc on 日 10 7月 2016.

- Docker

静岡県富士市吉原で開催されたShizuoka.py #5に参加してきた。第3回目から参加しているものの、自分でscratchからPythonのコードを書くことは少なく、そのリソースを利用させてもらって何かをするという機会ばかりが増えている。現にAOEもその1つだし。 今回は、東京で毎月開かれているみんなのPython勉強会に参加してきたので、その紹介という形のLTをさせていただいた。Pythonの勉強会なのに、高橋メソッドジェネレーターを使った画像で発表するという喧嘩を売るスタイルで。その前日に飛び入り参加してきたpitagora-galaxyに関してもバイオなデータ解析の実例として紹介してきた。 自分の発表はともかく、今回も自分自身がいろいろ勉強させてもらってきた。一番興味を持ったのはやはり前から何回か話をうかがっているFlaskによるウェブ開発。今回@aoshiman氏が発表された「Vagarant+DigitalOcean+AnsibleでPython開発環境を構築する」ができた上でのその後の話ではあるが、やはりそちらに興味をさらに持った。Flaskいぢりは是非時間を取ってやってみたい、ドキュメントも充実しているようだし。 また、このサイトもいつまでもWordPressで運用するのもどうかと思っていて、前回のMishima.syk #8でも話題になったStatic Site Generatorに興味を持っていたところ、さらにそっち方向にいい意味であおってくれる「python-pelicanでブログを作る話」が@hrs_sano645氏によって発表されたり。新しいもの導入したがりな心がうずうずしてきた …

Continue reading »


新規モデル生物NGS解析にpitagora-galaxyは使えるか?

Written by bonohu in misc on 金 08 7月 2016.

pitagora-galaxy meet-up(2016/07)に飛び入り参加してきた。昨年にGalaxy Workshop Tokyo 2015に参加し、VirtualBoxを使って仮想環境でデータ解析する仕組みのチュートリアルを受けて以来。それから1年間経ってのアップデートを期待して。 ここにある手順通りに再実行。まずはバージョンアップしていなかったVirtualBoxのバージョンアップから。OVAイメージも最新に。RNA-seqのワークフローを例として、新規モデル生物の配列データ解析で使えるレベルになっているかという観点から動かしてみた。テストデータではちゃんと動いたが、実際の生データではどうだろう?今度試してみたい。 仮想環境を使うゆえにメモリを大量に消費する計算はこの環境では厳しそう。だが、コマンドライン操作に不馴れな生命科学者にとってデータ解析の取っ掛かりには優れたツールだと再確認。今年度後半に予定している遺伝研研究会「次世代モデル生物におけるゲノム情報利用ワークショップ」(PDF)でハンズオンとかできるといいかなと思った次第。

Continue reading »


統合データベース講習会AJACS安芸

Written by bonohu in misc on 木 07 7月 2016.

2016年7月5,6日に広島大学霞キャンパスでの統合データベース講習会AJACS安芸に講師として参りました。今年度、1回目。 講師としては、1日目の「遺伝子発現DBの使い方」と2日目の「ライフサイエンス分野データの可視化と共有化」を担当しましたが、2日目の講習でRを使うので前日入りして動作をチェック。ウェブブラウザとしてIEを使うとRのデータ読み込みで失敗して先に進めなくなるというトラブルにあい、講習中の時間ロスを未然に防げたのはよかった。やはり、前もっての動作確認重要です。

2日目の講習テーマは新規で、どれぐらい時間かかるか読めず、多めのコンテツを用意していったわけですが、やはり多めでした。Rを使ってもらうにあたり、作業ディレクトリを設定する(setwd())ところで多くの方がコケてそれをすべてフォローしていたら時間が無くなり、なんとかPCAをかけるのを見せれたぐらいで、Bioconductorの利用までみんなで講習できず。残念。

今回登録者が60人を超え、関心の高さを実感しましたが、その一方で反応がなく…。こちらも機械じゃないので、良い反応があるとさらに良い講習ができるのではないかと。参加者も増えて受講生層も変わってきたからでしょうか。

それにしても、こういう講習会もずっと続けていて果たしていいのだろうか?DBCLSがはじまった時から始めていて10年目。そろそろ見直しの時期に来ていると思います。いい加減、各大学でそういうことが教えられる人を雇って常時居るようにしないと、生命科学研究が立ち行かなくなるのではないかと改めて心配に思いました。

Continue reading »


遺伝子機能予測から遺伝子機能アノテーションへの20年

Written by bonohu in misc on 土 02 7月 2016.

このブログでも紹介したカイコアノテーションパイプラインは急に思い立ってそれを開発したわけでなく、大学院時代から続けてきた遺伝子機能予測の延長上にある研究です。 1998年に出した初めてのfirst author論文は、今ではどちらかというとKEGGのパスウェイデータ解析の最初の論文としてciteされることが多いようですが、実はゲノムスケールの遺伝子機能予測ツールGFIT(Gene Function Identification Tool)に関する最初の論文です。対象はゲノム配列が決定され、そこから予測された読み枠(ORF: Open Reading Frame)から得られるアミノ酸配列セットに対して、でした。 さらに、対象とする生物種を高等真核生物のマウスに、mRNAから逆転写して得られるcDNA配列セットに対してこの遺伝子機能予測を適用しました。しかし、機械的に遺伝子機能予測しただけでは不十分だろう、ということで、その予測結果を専門家に集まってもらってすべて見てもらうことにしました。それが、遺伝子機能アノテーション(注釈)といわれるようになり、それこそがFANTOM(Functional Annotation of Mouse)と呼ばれているものです。 FANTOMは遺伝子機能アノテーションから離れてどんどん進化していっていますが、遺伝子機能アノテーション自体はさまざまな生物種でゲノムワイドな解析をする際に必要不可欠です。近縁のよく遺伝子機能アノテーションがなされている生物種に配列類似性検索をALL対ALL、すなわち全てに対してかけてその対応を取ることがなされています。カイコアノテーションパイプラインに関しては、ヒトの疾患モデル動物としてカイコを使うことを意図した研究でしたので、そこを近縁のショウジョウバエに敢えてせずにヒトを使ったという点がポイントでした。

Continue reading »


SayaMatcherはどうなったのか?

Written by bonohu in misc on 金 01 7月 2016.

かつて埼玉県狭山地方に勤務していた時にSayaMatcherという計算する仕組みを作って、転写因子結合配列などをゲノム配列から探しだし、それらをBED形式やらで出力し、ゲノムブラウザ上で見れるようにしていました(Bono HU: Gene, 364, 74-8, 2005)。それから10年あまりが経ち、個人のゲノム配列がかつての技術目標であった千ドルほどで決定できる時代になってしまいました。suffix array技術を生命科学データベースに応用し、RefSeqのデータに対して検索できるようにするGGRNA(ググるな)を2011年から開発し、さらにそれをゲノム配列に特化して検索できるようにしてGGGenome(ゲゲゲのむ)を開発しました。 GGGenomeを使うことで、かつてEMBOSSのプログラム(dregやfuzznuc)を使って時間をかけて計算していたのが数秒で答えが返ってくるようになりました。その結果、GGGenomeのAPIならびにその出力オプションにbedを指定することで、その計算結果をUCSC Genome Browserなどで表示させることが可能となりました。 かつてはChIP(クロマチン免疫沈降)実験した結果をマイクロアレイで検出して、その結果とそれまでに知られていた転写因子結合配列がどう違っているか、そういった目的に使っていました。現在ではChIP-seqというかたちでハイスループットに実験が可能となり、しかもそれらのデータがすでに定量され、UCSC Genome BrowserからTrackとして利用可能になっています。生命科学者は、手元のGenome Browserを自分の好みに合わせてカスタマイズすることで、それら複数の結果の比較検討ができるようになっています。 というわけですので、SayaMatcherはGGGenomeへと「進化した」と考えていただいてよいと思います …

Continue reading »


2016年前半戦終了

Written by bonohu in misc on 木 30 6月 2016.

今年も早いもので前半戦終了。出張はかなり多かったようで、外泊数がなんと合計43泊。一月に約7泊ということで、勤務日の約1/3は外勤だったという計算。どこに居ても仕事できる環境を作ってきたが、そこでしかできないことしかやっていないのではないか?ありがたいことに遺伝研に来て三年目、最近になってローカルでの連携ネタが続々出てきている。そういった芽を絶やさぬよう、大きな共同研究へと育てていきたい。そして、明日からついにDBCLS10年目になる。中長期的な戦略を考え直す時期にきていると思う。日々の業務もこなしつつ、今後の戦略を熟考したい。

Continue reading »


群馬大学大学院医学研究科非常勤講師

Written by bonohu in misc on 木 23 6月 2016.

「オミックス医学とバイオインフォマティクス」というお題で。やはり90分では短く、珍しく時間オーバー気味。じっくり教えるには、単発の講義ではとても収まらないレベルの内容になってきた感。時代の流れとともに必要とされているのです、是非きちんとそれをやれる教員を雇ってそういった講義を半期なり通年なりで開講していただきたい。

ところで、直前に「医療に役立つ遺伝子関連Web情報検索」が献本で送られてきたのでご紹介した。医療系の初学者向けに今どきのインターネット上にある情報検索を教えてくれる本なのだが、なぜか統合TVが全く言及されていない。 [amazon template=thumbnail&asin=4895928616] 話の内容的には以下の「ゲノム医学」の方が近く大変参考になった。とくにExome解析でわかってきた単一遺伝子疾患の原因遺伝子の表(p272)。それ以外にも知識の整理や新たな発見もありそうなので、夏休みの課題図書にしたいところ。 [amazon template=thumbnail&asin=4895928446]

Continue reading »


2016 BioHackathon 5日目

Written by bonohu in misc on 土 18 6月 2016.

最終日。ひきつづき。そして最後にwrapアップ。今回、AOE2のデータ作成パイプラインの構築に取り組み、機械的に単純にindexとなるデータを作るところまではできた。それらの成果(スクリプト群)はgithubのAOEプロジェクトのレポジトリに。今後は重複しているエントリをどうにかしてまとめる工程に取り組んでいく。

Continue reading »


2016 BioHackathon 4日目

Written by bonohu in misc on 木 16 6月 2016.

一昨日に仕込んだArrayExpress(AE)のファイルリストの取得が終わったので、AOE1の更新を続き。もうちょっとファイルリストが高速に得られればもっと更新が早くできるんだが…。AEをローカルにミラーするようになったらそれらを自動化するようにしてweeklyやdailyというのも夢ではないかも。

Continue reading »


2016 BioHackathon 3日目

Written by bonohu in misc on 木 16 6月 2016.

中間発表を1時間で。午後はExcursionということで、目の前の温海岳(標高736m)にbug取りがてら山登り。意外に険しい山道だったが、珍しい蝶が採れたらしい。

Continue reading »


2016 BioHackathon 2日目

Written by bonohu in misc on 火 14 6月 2016.

温泉インフォマティクス研究会足湯支部に入部するも、蚊と雨の襲撃により敢え無く延期。今月のAOE1の更新も進めつつ、昨日入電した裏プロジェクトの解析も並行して。

Continue reading »


2016 BioHackathon 1日目

Written by bonohu in misc on 月 13 6月 2016.

本日6/13から6/17までBioHackathon。今回も引き続きAOE2.0に向けてhackします。メタボにならないように、今回はランチはホテルでとらない作戦で。夜にガッツリ方針を議論。自分のやるべき方向がさらに明瞭に。

Continue reading »



2016 SPARC Japan ワーキンググループキックオフミーティング

Written by bonohu in misc on 木 09 6月 2016.

今年度(2016年度)から国際学術情報流通基盤整備事業(SPARC Japan)セミナー企画ワーキンググループのメンバーとして関わることになり、そのキックオフミーティングで一ツ橋の国立情報学研究所へ。担当として2つのセミナーの企画運営に加わることに。 実は、3年前に第3回 SPARC Japan セミナー2013「オープンアクセス時代の研究成果のインパクトを再定義する:再利用とAltmetricsの現在」で話をしているこのセミナーだったのだが、流れが大分DBCLSで目指してきた文献やデータの流通を「交通整理」し、「知のめぐり」を良くする方向に生命科学分野だけでなく、全体的にそうなってきたから今回セミナー企画ワーキンググループメンバーとして呼ばれたのかなと。これまで蓄えてきた経験を活かして貢献していきたい。

Continue reading »


Homebrewと暮らす

Written by bonohu in misc on 月 06 6月 2016.

Homebrew便利だが、しばらく経つとソフトウェアがアップデートされていってローカルに持っているインデックス情報が古くなり、いろいろと不都合が起きるようになる。そこで、以下のコマンドを日課(or週課?)のように打って欲しい。 [shell] brew update -v brew upgrade -v [/shell] これをすることでインデックスが更新され、古くなったソフトウェアは自動的にアップデートされる。 そして、たまには [shell] brew cleanup -v [/shell] するとよい。古くなったバージョンのソフトウェアを消去してくれる。今、したら This operation has freed approximately 17.2G of disk space. と出て、17.2Gbyteディスクスペースが空いたらしい。

Continue reading »


localBLASTのblastdbcmdを使って配列エントリの特定の領域を取得する

Written by bonohu in misc on 木 02 6月 2016.

新規なモデル生物では、ゲノム配列が公開されていても多くの場合染色体ごとに配列が一本につながっていない。どうなっているかというと、scaffoldという単位でゲノム断片配列が記述されている。 そういった場合でも、コマンドラインで使用する際のNCBI BLASTに含まれる makeblastdb というプログラムを使ってインデックスを作成、blastdbcmd を使ってエントリ名(-entry)と領域(-range)を指定することで、その領域の塩基配列を取得することが可能である。

1
2
3
4
#!/bin/sh

makeblastdb -in hoge.fa -dbtype nucl -hash_index -parse_seqids
blastdbcmd -db hoge.fa -entry scaffold001 -range 2000-2500

このコマンドでは、一行目でhoge.faファイル(FASTA形式)に対してインデックスを作成、二行目でscaffold001の2000塩基から2500塩基までの配列を抽出する例を示している。通常の makeblastdb のオプションに加えて …

Continue reading »


'Mishima.syk #8'

Written by bonohu in misc on 日 29 5月 2016.

今回が8回目のMishima.syk(三島創(製?)薬勉強会)。三島で開催されたSPARQLthon44の次の日に開催をはたらきかけて、異分野交流を目論んでみた。みなさん、いろいろと忙しい中、複数人の人がその流れで参加してくれて、私のねらいは当たったかなと。ただ、誤算はハンズオンの講師の方が緊急入院…。一日も早いご回復を祈るばかりです。

自分は、本業の仕事をもっと知ってもらいたいと思って、直前のEBI出張と絡めて発表してみた。DRY解析教本の人、というイメージ以外にも公共データベースのなかのひとと思っていただけるようなイメージも強くできたかな!?自分の発表スライドは、今回新たに用意されたMishima.sykのgithubのサイトにアップしてみた。

今回の勉強会は、沼津駅北口のプレザヴェルデでの開催で、ちょうどその日がぬまづみなとの街バルの日ということもあって、懇親会は盛り上がりました。一次会として、みんなで適当なグループに(自然発生的に)分かれて、まずバルに参加。バルチケット3枚で、2時間半という設定が絶妙でしたね。そして、その後、バスク料理のお店、うさぎの木に集合して、2次会。素晴らしい采配だったかと。とても楽しかったですね。またみんなで …

Continue reading »


Trinityで転写産物を定量する

Written by bonohu in misc on 金 27 5月 2016.

Trinityの出力結果は、転写単位ごとの塩基配列のFASTA形式ファイルだが、付属のプログラム(align_and_estimate_abundance.pl)を使うと、転写量を見積もって定量、そして出力してくれる。TrinityのウェブサイトのTrinity Transcript Quantificationに詳細が書かれている。

homebrewでこれまで色々入れたMacOSX10.11.5の環境では、RSEM(RNA-Seq by Expectation-Maximization)を別途インストール(本家ウェブサイトからダウンロードの上、makeしてmake install)さえすれば以下のような感じのオプションで動いた。上記ウェブサイトに書かれている例ほとんどそのままだが、変更点は--aln_method bowtie2を指定してbowtie2を使うようにしたのと、--thread_countで使っていいthread数を環境に合わせて変えたぐらい。

[shell] /usr/local/Cellar/trinity/2.2.0/util/align_and_estimate_abundance.pl --thread_count 12 --transcripts trinity_out_dir/Trinity.fasta --seqType fq --left hoge_1.fq …

Continue reading »


Trinity on MacOSX

Written by bonohu in misc on 月 09 5月 2016.

de novo transcriptome assemblyをするソフトウェアの定番のTrinityがhomebrewで入って動くようになりました(v2.2.0)。これまでhomebrewには入っていたものの、私の環境ではきちんのインストールできないでいました。必要なときはその都度DDBJのスパコンにお世話になっておりました。 それが手元のMacで動くようになったのは素晴らしいことです。

brew install -v trinity

でインストールして、

Trinity --seqType fq --left hoge_1.fq.gz --right hoge_2.fq.gz --max_memory 16G --CPU 4

というコマンドで実行するだけです(ペアエンドの場合)。入力としてはペアエンドのファイル2つ、hoge_1.fq.gzとhoge_2.fq.gzで、見ての通りfastqファイルはgzip圧縮を解かなくても実行可能です。

また、シングルエンドの場合は、

Trinity --seqType fq --single fuga.fq.bz2 --max_memory …

Continue reading »


データベースとは1

Written by bonohu in misc on 水 04 5月 2016.

昨今、インターネット上には利用可能なデータリソースが溢れている。 データベース(DB)とは、生命の持つ情報を再利用可能な形で電子化したデータとして集めたものである。インターネットの普及とともにウェブインターフェースでDB本体へアクセスできるようになってきたことから、ウェブサイトのことがDBだと勘違いしている人も居るぐらいである。 SwissProt有償にします事件以後、いつかのサイトはさまざまな事情からユーザー登録を必要とするものが出てきて、さらにはそれを有償で提供するものも出てきた。しかしながら、生命科学のDBは現在でもその多くが誰でも無償でアクセスできるようになっている。それは、DBはつかってもらってなんぼ、だからである。論文のオープンアクセスと同じである。

「データベース生物学」カテゴリーとして、DBを使った研究に関して多くの人に伝えたい事を、今後不定期に私見を主体に書き記していこうと思う。

Continue reading »


圧縮したファイルで処理する

Written by bonohu in misc on 日 17 4月 2016.

NGSデータ解析の出発点は、シーケンサーやSRA (Sequence Read Archive)から取得したFASTQ形式のファイルなのは同じだろうが、これを圧縮しない(ファイル拡張子が.fqや.fastqのことが多いが、ようするにテキスト形式のファイル)まま、入力として使っているだろうか?配列解析プログラムの多くは、gzip圧縮やbzip2圧縮したファイル(ファイル拡張子は、それぞれ.gzと.bz2)を直接読み込めるようになっていることもあるので、まずファイル解凍するのではなく、圧縮形式から実行可能かどうか、確かめたほうがよい。解凍するプロセスがなくなり、作業効率が格段に向上するからだ。

  • v2.2.0のTrinity、入力のFASTQファイルがgzippedでも対応しているのを確認(20160506)

また、データ解析する際に中間ファイルが多数出てくる。そして、そのファイル群は多くの場合、テキスト形式のファイルで、ファイル圧縮もかかっておらず、サイズがでかい。それらをそのまま置いておくとHDやSSDの肥やしになるし、その都度ファイルを解凍してから処理するのも面倒だし。かといって消してしまうと後で困ることも。というわけで、どうせ圧縮するのなら前にも触れた並列版bzip2のpbzip2を使って圧縮し、ディスクスペースをどんどん空けていこう。

それらの中間ファイルをテキスト処理するには、例えばPerlだと以下の様な感じでちょっとコードを変えるだけで済む。参考まで。

[perl] my …

Continue reading »


行番号を付ける

Written by bonohu in misc on 月 11 4月 2016.

バイオの業界ではとくに、IDが重複していることがある。Rでの処理の場合、それでは入力が受け付けてもらえず実行できないことがよくある。そんな時には行番号を付け、それをuniqueなIDにしてしまうという解決策がある。その処理をRの内部ですることもあるが、今回はUNIXコマンドで行番号を付けてくれるnlコマンドを使う方法でやってみたので、書いておく。

[shell] nl -n ln -v 0 file.txt [/shell]

細かいオプションはここを参考にした。-n lnで左詰めに、-v 0で0からスタート(file.txtにヘッダ行が1行あったので)。

コマンド処理万歳。

Continue reading »


joinコマンドの出力をタブ区切りに

Written by bonohu in misc on 水 06 4月 2016.

joinというUNIXコマンドは、2つのファイルの同じ値のある行をjoinして、一行にまとめてくれるコマンド。

join -j 1 file1 file2

でタブ区切りテキストのfile1とfile2の一番左側のカラムの値が同じ行が結合されて出力される。

このコマンドのやってくれる事自体は大変便利なのであるが、デフォルトではその後の出力はスペース区切りとなり、ちょっと不便だった。これをタブ区切りに変えるやり方を知ったので、こちらにも転記しておく。

join -j 1 -t "$(printf '\011')" file1 file2

結合する前のファイルはsortされていないといけない。そうなっていないと join: file1:7: is not sorted というエラーが出る。

sort -u file1 > file1s
sort -u file2 > file2s

のようにsortしたファイルで処理するようにする。-uオプションを付けることでsortしたうえに重複した行も除くように。

あとjoinするのに用いるword(キー)もユニークでなくてはならない。すなわち、二回以上出てきてはダメ。実は今日やっていたのはこちらの制約に引っかかり …

Continue reading »


scikit-learnのインストール

Written by bonohu in misc on 水 30 3月 2016.

pythonの機械学習ライブラリ。ふとしたキッカケで入れてみようと、思い立ったが吉日。

pythonのバージョン3が入っていなければ、まずそれを。

[shell] brew install -v python3 [/shell]

これでインストールされるpip3を使って必要なライブラリを。

[shell] pip3 install scikit-learn [/shell]

の他に、scipy, numpyあたりが必要なようです。

このサイトにあるサンプルコードを動かして自分のやりたいデータ解析への応用を探っているところ…。

Continue reading »


RNA-Seq実験ハンドブック

Written by bonohu in misc on 土 19 3月 2016.

RNA-Seq実験ハンドブックという本が出版されます。出版社のページによれば2016年03月23日発行予定とのこと(2016年3月発行予定に変わっていました)。「RNA-Seqはこうして誕生したーそしてデータ再利用へ」と題したコラムを書かせてもらいました。短いですが、遺伝子発現解析の歴史的なことを簡単に書かせていただき、本業で推進しているデータ再利用の重要性を説いております。そしてRefExの宣伝も。 [amazon template=thumbnail&asin=4758101949] Amazonのページには2016年3月26日発売となっているようですが。手元に届くのが楽しみです。

Continue reading »


第60回 人工知能学会 分子生物情報研究会(SIG-MBI)

Written by bonohu in misc on 金 18 3月 2016.

続けて同じ場所で開催されたSIG-MBIにかなり久しぶりに参加。SIG-MBIの開催が第60回にもなっていたとは。続けて開催されているのは大変素晴らしい。敬意を表します。なお、自最後に参加した2005年の第1回オープンバイオ研究会との共催の時には、「第3回人工知能学会生命知識研究会(SIG-BMK)」だった模様。時が経つのは早い。

研究会ですが、発表者がその第1回オープンバイオ研究会の発表者とメンツがあまり変わりなく。まあ、他にも発表する機会が今回の研究会クラスタであったからと思いたいが、参加するのなら発表するようにしたほうがいいんじゃないかなと老婆心ながら。

自分は、「公共遺伝子発現データの再利用に向けた取り組み」と題して、NBDCの共同研究としてDBCLSでやってきた遺伝子発現データを使いやすくするプロジェクトに関して20分ちょい話をさせていただいた。DBCLSやNBDCについてもよく聞く略語であっても知る機会が少ないと思い簡単に紹介させていただいたが、プチやはりだった年表形式のほうがよかったかなと反省。若手の方から質問がなかったのは興味がなかったのか、私の話し方が悪くてわからなかったのか…。わかりやすく伝わるよう、中身もプレゼンも、さらなる精進が必要。

Continue reading »


BH15.15成果報告会と第20回オープンバイオ研究会

Written by bonohu in misc on 木 17 3月 2016.

朝からみんなでバスでJAISTに移動して成果報告会。遺伝子発現目次の進捗状況に関して報告。いつもどおり、みんなで議論して情報を共有したことが大きな成果。githubにアップしたmetadataからの抜き出しスクリプト群の作成が目に見える成果ですが、それ以外には、solrからのデータ抽出のバグというか、データが大きくてもうまくいくやり方を経験的に知り得たことが大きかったかと。

その後の第20回オープンバイオ研究会では、公共データベースの利用を促進する取り組みを、非モデル生物種に関して注力しています、という話を四コマプレゼンでしてみた。統合DBプロジェクトに関わっていても私自身が普段やっていることに関してDBCLS以外の方は知ることがない内容の話だろうとふとと思って、納品されたばかりのテンプレートを使ってプレゼンを急造して即席で。その後の第3回オープンサイエンスアワードでは関わっているプロジェクトが何個か表彰していただいた。たいへん励みになります。ありがとうございました。

Continue reading »


BH15.15 3日目

Written by bonohu in misc on 水 16 3月 2016.

ArrayExpressのメタデータにBioProjectがなかったので、GEO由来のエントリだけでもBioProjectIDが付けられないか模索中…。すべてのデータをスクレイピングする以外に解決法はないのか?いろいろ調べた結果、結局bioprojectのXML(bioproject.xml)から生成するスクリプトを書いて、SRA由来でない発現データにもBioProjectIDを付与するための元データが得られた。GEO由来のエントリだけだが。ArrayExpressにしかないものはまた別にrescue方法を考える。

やり残していたExperiment(xRX)とRun(xRR)の対応表を1つの実験毎に重複なく作成するスクリプト作成。これで発現定量した結果とそれに相当するExperiment,さらにはStudy(xRS)を結び付けられるように。データ統合化まであと一歩!

それらをまとめて、Perlスクリプトだけだがgithubに新規のrepository(AOE)を作成してpush。これだけ1日に何回もgit push -u origin masterしたのは久しぶりだったり。

Transcriptome analysis (RNA-seq)だけでなく、すべてのstudyデータに対してもjoinしたデータを作成して、今後のデータ更新の元となるナニカが出来た感。

Continue reading »


BH15.15 2日目

Written by bonohu in misc on 火 15 3月 2016.

2日目は抽出したメタデータの抜けをチェックして出来る限り取りこぼさないようparserを改良。1つのメタデータに複数のデータ単位が含まれていることをランチ前に発見して、ランチタイム遅延。対処する目処をつけてからカレー、その後本格実装。タグの多様性がみとめられたので、IDの正規表現で最悪補完できるようにした。その結果、ファイルに抜けが減り、TIBCO Spotfireでのjoinが急激に遅くなったため、join用にスクリプト作成。AOEに実装するのに必要なデータが大分揃ってきた。あとは、Series-Runの対応表と更新日時のデータ。そして、AOEにすでにあるArrayExpress(GEO)由来のデータとの統合。

Continue reading »


BH15.15 1日目

Written by bonohu in misc on 月 14 3月 2016.

今日2016年3月14日から、国内版Biohackathon(BH15.15)。2015年15月ということで、2016年3月の開催となったが、このパターンでの開催もついに今回で最後(というかルール破綻)になるとのこと。「SRA/BioProject/BioSample etc の統合的な検索」の中の「遺伝子発現データ検索への応用」というサブテーマで取り組みます。

先月のSPARQLthonでSRAのメタデータからの抜き出しに問題があったのが、原因を究明。どうも、csv形式での抜き出しに問題があるようで、json形式に変更してきっちりとすべて抜き出してこれるように。これで必要なメタデータのうち、Submission date以外は取れたはず。1日目の進捗はとりあえずそれということで。

Continue reading »


あれから5年

Written by bonohu in misc on 金 11 3月 2016.

これからどうなるのか。そう思ったあの日から5年経ち、活動本拠地は静岡県三島市の国立遺伝学研究所に移動したものの、相変わらず生命科学データベースの普及活動を中心とした研究生活を続けられている。「幅優先」だった活動は、「深さ優先」にシフトし、その頃からも実はやっていた個別の共同研究の割合が増えてきているが。

その前の年に始めた共同研究は、皮肉にも5年前の今日に取ったデータが決め手となり、紆余曲折あったものの約3年前に論文に。その共同研究は継続しており、今年のこの日にも打ち合わせが。研究を続けられていることは素晴らしい。関係者の皆さんに感謝の念がやまない。これまでに持ちかけられた多くの共同研究は途中で頓挫してしまっており、論文化していないものが多数であるからだ。

この先5年、どうなるかなんて全くわからない。現に5年前の今日は、今日の日のことを全く予測できなかった。ただ、やるべきと思うことを続けてやっていくことだけだ、と心に再確認した5年目の3.11だった。ありがとう。そして、これからもよろしく。

Continue reading »


標準出力と標準エラー出力をまとめる

Written by bonohu in misc on 金 04 3月 2016.

UNIXのコマンドラインには標準出力と標準エラー出力があります。プログラムの出力結果は通常標準出力で、

[shell] sh run.sh > log.txt [/shell]

とすることでlog.txtにその出力結果が記録されます。このようにしてもまだ画面に何か表示されることがあります。それが標準エラー出力の結果です。

[shell] sh run.sh > log.txt 2> logerr.txt [/shell]

とすることで、標準出力はlog.txtに、標準エラー出力はlogerr.txtに記録されます。2つのファイルに分かれさせたくない場合は以下のように。そうするとlog.txtの1つのファイルに出力が記録されます。 [shell] sh run.sh > log.txt 2>&1 [/shell]

ちなみにこれは使っているシェルがbashやzshなどで、cshやtcshだとコマンドが異なりますのでご注意を。

Continue reading »


タブをgrep

Written by bonohu in misc on 木 03 3月 2016.

grep便利ですね。タブ区切りのテキストで必要な情報を持つ行だけ取ってくるとか、多用されます。ですが、 [shell] grep chr1 hoge.gff [/shell] では1番染色体(chr1)のデータだけ抽出したいのにchr11やchr12のデータなども引っかかってきます。そこでワードがタブで区切られていることを利用して、chr1(tab)で検索すると1番染色体のデータだけが取ってこれそうですよね。

それを実現するには以下のようにすればそれが実現できます。 [shell] grep chr1$'t' hoge.gff [/shell]

Continue reading »


samtools view も並列化

Written by bonohu in misc on 水 02 3月 2016.

ときすでにsamtoolsのバージョンは1.3。single threadで遅く、時にはそれが律速になっていたsambam変換も並列化されている。 samtools sortの時と同様に、-@フラグで使用するCPU数を指定。例えば、

[shell] samtools view -@ 8 -bS file.sam > file.bam [/shell]

で。

indexのほうは並列化オプションは現状ないらしい。*.bamとかやっても複数のファイルのindexは作れず、既存のbamファイルを壊してしまうので注意。

[shell] foreach f (*.bam) samtools index $f end [/shell]

とするしかないのかな。

Continue reading »


'ファイルの移動方法: tar編'

Written by bonohu in misc on 火 01 3月 2016.

大量のファイルの移動が必要な季節になってきましたが、我々DB屋は年がら年中です。複数のディレクトリ階層構造を持ったファイルの同期にはrsyncが一番ですが、単にそういったデータを転送するのであれば大学院生の頃(約20年前)から使っているtarを使った方法があります。

[shell] cd /Volumes/old_HDD tar cf - |(cd /Volumes/new_HDD; tar xvf -) [/shell]

移したいディレクトリのあるところにcdして、その次の行のコマンドを実行します。/Volumes/new_HDDは移したい先のディレクトリ名です。サイズや複数のファイルを持つディレクトリを移すのに今でもよく使っています。

Continue reading »


SPARQLthon41

Written by bonohu in misc on 水 17 2月 2016.

2016年2月16,17日に理研和光にてSPARQLthon41に参加。引き続き、DBCLSで開発中の遺伝子発現目次AOEに公共遺伝子発現データベースArrayExpress(含むGene Expression Omnibus)に無いデータ(=Transcriptome sequenceによる遺伝子発現定量)を補完するのに取り組む。 SRA(Sequence Read Archive)のデータをSolrで検索できるようにしてもらったのを利用して、加えるべきデータセットを生成するスクリプト作成とか。メタデータを精査していくと、NCBIのXMLにはsubmission dateのデータがないことが発覚。その部分以外はAOEに載せるべきデータはとりあえず作成

  • studyから

    • PRJ (BioProject ID)

    • GSE (GEOのSeries ID)

    • xRP (SRAのProject: SRP,ERP,DRPから始まるID)

    • Title

  • experimentから

    • xRX (SRAのExperiment: SRX,ERX,DRXから始まるID)

    • PRJ

    • SAMN (BioSample ID)

    • Sequencer

  • sampleから

    • xRS (SRAのSample: SRS …

Continue reading »