Category: misc

July2018

Written by Hidemasa Bono in misc on 火 31 7月 2018.

2018年7月を振り返って

出張が少なかった6月と打って変わって、7月は5月と同じ宿泊回数10日。 国内版バイオハッカソン@徳島がその半分以上の6泊。結果として、AOE関係の仕事はとても進んだのでよかったのだが。

あと、統合データベース講習会AJACS筑波4の講師業。広報活動にももちろん、寄与した。 DB利活用の広報活動的な外部講演は、つくばと徳島のそれぞれの出張に併せて外部セミナーというものを実施したりで、AJACSも含めると7月は3件。出張に併せてやるというのは聞いてもらえる機会を増やすので、今後も積極的にやっていきたい。

公共DBを使いこなした研究も並行してやってきてはいるが、なかなか形にはなっていない。 色々な締め切りがヤマを越して時間が取れそうな来月以降、キッチリ形にしていきたい。

夏休みシーズンを迎えて、Dr.Bonoの生命科学データ解析は細々と売れているようだが、実際に何冊売れたかは今のところ、不明。

Continue reading »


BH18.7

Written by Hidemasa Bono in misc on 金 20 7月 2018.

国内版バイオハッカソンBH18.7

徳島県徳島市の眉山にあるかんぽの宿で開かれた国内版バイオハッカソンBH18.7に参加。公共発現データ目次AOEの開発維持管理を引き続き取り組む。

一つ目は、NCBI Gene Expression Omnibus(GEO) のより完全なメタデータをAOEで使えるように、GEOからsoft形式のファイルを取得してくるスクリプト群書き。GEOデータのダウンロードの説明ページを参考にしながら、eutilsの使い方をよく知っている同僚に教えて貰いつつ。ダウンロードしてくるべきデータのIDのリストをウェブインターフェースで事前に取得してから100個づつまとめてゲットしてくるやりかたで進めたが、途中で一時停止したり。なかなか思うようにすぐには取得できず。

二つ目は、SRAには登録されているものの、GEOには登録されていないデータに関してもAOEから検索できるようにするというプロジェクト。以前にも数えてみたことがあったが、今回DBCLS SRA APIを使ったやり方に変更し、BioProjectのID単位で数えてみると2万を超えるエントリがあったので、それらがどういうエントリかを詳しくみる手前まで漕ぎ着けることができた。続きは次回以降のSPARQLthonにて。

という感じで、自らのプロジェクトを進めることが今回も出来た。有意義で充実した、素晴らしい五日間だった。セッティングしていただいた、オーガナイザーの皆さん、ありがとうございました。

Continue reading »


Start Python Club 37th

Written by Hidemasa Bono in misc on 水 11 7月 2018.

みんなのPython勉強会#37

前回に続いて、連続参加。おとなしく、聴衆に戻った。

第37回目の今回はPython教育がテーマということで、社内で導入した例や勉強するためのさまざまなリソースの紹介。特に、最後の@terapyonさんの「Pythonの学びの段階を自覚し適切なステップアップ方法を見つけよう〜コミュニティやチュートリアルイベントを通じて感じたこと〜」は普段講習会の講師をやっている自分にとっても参考になる点が多々あり、グッときた。単に本を紹介するという感じではなく、そのための心構えやイベントへの積極的な参加姿勢などを学び取ったつもり。

終了後のビアバッシュのじゃんけん大会で勝ち残ってしまい、azureなTシャツをゲットした。これまで持っていないいい色合い。大事にします。

次回は仕事の都合上無理っぽいが、またタイミングが合えば会場で参加したい。

Continue reading »


Navigating Metabolism

Written by Hidemasa Bono in misc on 土 07 7月 2018.

代謝ナビゲーション

Nature Metabolismが2019年1月に発刊されるらしい。約20年前に日本生化学会の代謝マップを元にKEGGのデータを作成するお手伝いをしていた私にとってみると大変驚きの事実である。当時はシグナル伝達全盛で、なぜそんな時代遅れの代謝なんてやっているのかわからんといわれたものである。

今、代謝がアツい。実は2017年にDr.Bonoの生命科学データ解析と同じ出版社(メディカル・サイエンス・インターナショナル)から、代謝ナビゲーションという翻訳本がほぼ同時期に出版されている。

この本には、代謝パスウェイの知識をデータベース化していた90年代からの研究の進捗が加味されており、さらに深く代謝を知る上で大変参考になる。 例を挙げると、低酸素誘導因子(HIF)による代謝の調節がそれである。第10章「シグナル伝達と代謝」のp176辺りに「酸素とグルコースによる転写ネットワークの調節」の節で、2000年前後から解明が進んだこの分野の知見が綺麗にまとめられている。

原著はこちら。

より深く知りたい人のための文献として第3章「解糖系」ではKEGGのGlycolysis/gluconeogenesisのURLが紹介されているのは、感慨深いものがある。URLもこの種の教科書の重要なリファレンスとしてリストされるようになったのだ。

Continue reading »


11 years passed

Written by Hidemasa Bono in misc on 日 01 7月 2018.

DBCLS11年

この2018年7月で、2007年7月にDBCLSに移ってはや11年が過ぎた。 日本を代表する生命科学のデータベースセンターとしてやるべきだと思ったことを自分なりに自分のできる範囲でやり散らかしてきた。 その雑多な知識の体系として、ようやく2017年の9月に『Dr.Bonoの生命科学データ解析』という形で書籍化することができ、一区切り。

drbonobon

プロジェクトを開始した当時は、動画でDBを紹介することなんて考えてなく、紙媒体の教科書としてそれをまとめて形にすることを目論んでいた。 一周回って、11年目にしてやっとそれが達成された、という考え方もできるかも。

そして、その次へ。そうやって構造化した知識(11年前当時流行っていたキーワードでいうと、「知の構造化」)を、実際のこれからの生命科学研究で活用していくこと、である。 多くの人に使ってもらいたいが、自らももちろんやる。 それを実現化するためのいろいろのため、日々奔走している今日このごろ。 これからも前向きに精進していきたい。

Continue reading »


Shizuoka.ngs#1 done

Written by Hidemasa Bono in misc on 土 30 6月 2018.

エンジニアのための生命科学データ解析の勉強会@静岡に参加しての雑感

このブログの過去のエントリにも書いたように、Shizuoka.ngs#1が開催された。2017年の12月に拙著『Dr.Bonoの生命科学データ解析』(通称Bono本)の読書会で得た雑感を元に、今回は生命科学ガチ初心でもできる!エンジニアのための生命科学データ解析の勉強会 Shizuoka.ngs#1 として企画。場所は、前回の読書会と同じ貸し会議室@静岡駅前で。

メインは、RNAの発現量を配列カウント数から推定するRNA-seqデータ解析のハンズオン。もっと手こずるかと思ったが、エンジニア向けということで参加者のコンピュータ・リテラシが高いのか、予想を遥かに上回るペースで進んだ。これは、主催者のOさんが貸出マシンやデータを予めダウンロードしてUSB外付けハードディスクに準備してくれたばかりか、jupyter notebookのファイルも用意してくれてて。参加者は、それを一行づつ追って確かめていけばよく、勉強になったからかと。

自分は、「エンジニアのための生命科学入門」と題して1時間弱話させていただいた。@no85jさんもライトニングトーク「遺伝子発現解析で何がわかるの?」をしてくださり、なぜそのようなデータ解析をしているのかがより明確にわかったのではないかと。

次世代シークエンサーDRY解析教本に載っているやり方とは異なるalignment freeな方法によるハンズオンは今回が初めてだった。これまでのやり方だと時間内には絶対終わらず三分間クッキング方式で、すでに解析したファイルを見てもらうだけだったが、これならMacBookAirでも発現定量解析が一応自分のマシンで完了できた。今後はこちらでやると良いのかもしれない。

Continue reading »


Mishima.syk 12th

Written by Hidemasa Bono in misc on 土 23 6月 2018.

Mishima.syk#12

8ヶ月ぶりに開催されたMishima.sykは今回12回目。5年ほど前から開催されているので、年2-3回のペースということに。

今回は発表者も多く、話題が多岐にわたり、いろんな方の発表を聞かせてもらった。名指しでコメントを求められる場面もあったが、個人的にはその場では控えめなコメントに留めるようにしたつもり。「日々是精進」かと。

今回は国際塩基配列データベース見聞録ということで、2018年5月のNCBI出張で得た雑感をざっと。実は、8回目にも同じタイトルで2016年5月のEBI出張関係で話していて、続編的であったが、初めての人も多いということで基本的なところにとどめて、撮った写真を中心にビジュアルに話してみた。最後は来週2018年6月30日のShizuoka.ngs#1の宣伝で締めた。公開できる資料はMishima-sykのGitHubにアップしてある。

NGS_DAT

素晴らしくオーガナイズされた懇親会(一次会、二次会)にて新しく参加してくれた人と話す機会があった。「次世代シークエンサーDRY解析教本を読んで勉強した」という話を聞いて嬉しい気持ち半分、そこからさらに発展させて最新のツールをサーベイして使ってみてよかったから(次のアップデートがあるのなら)それを載せてほしい、といったさらにツッコんだ話まで聞けなかったのが残念な気持ち半分、が正直なところ。このギョウカイの流行り廃りのペースは早く、日本語の情報はすでに古くなっているかも、という目で参考にしてほしい。自分一人だけで独学でデータ解析やシステム構築の勉強をやっていくのは辛いというのなら、そういう人が集まる勉強会、例えば来週2018年6月30日の …

Continue reading »


Like Nishino Japan Tonight

Written by Hidemasa Bono in misc on 火 19 6月 2018.

憂しと見し世ぞ 今は恋しき

奇跡の復活を果たした友人と。いろいろ絶望していたが、話しているとポロポロと良い考えが。何事も前向きに。

ご所望のバーに久しぶりに。自分の定番ばかりでなく、たまには新しいオススメを飲んでみるのも良いことだ、と。

Continue reading »


Start Python Club 36th

Written by Hidemasa Bono in misc on 月 04 6月 2018.

みんなのPython勉強会#36

2年前に初めて参加して以来、数ヶ月に一度ぐらいの割合で予定が合えば参加してきた、みんなのPython勉強会だが、ついに2018年6月の第36回で発表させていただいた。ネタとしては、生命科学データの可視化ということで、AOEを中心に概論と詳細を。前者を私が、後者を実際にシステムの構築をやってくれている大石さんにお話いただいた。

私に与えられた15分で、生命科学データとその可視化の概論をというのは、やはりきつかったというのが印象。少々時間オーバーして進行に迷惑もかけてしまった。ネット接続が切れてて、見せたかったゲノムブラウザの可視化も表示できず…。次回以降はまたおとなしく聴衆に戻ろう。

Continue reading »


The self taught programmer

Written by Hidemasa Bono in misc on 土 02 6月 2018.

独学プログラマー Python言語の基本から仕事のやり方まで

YouTube Live越しにこっそりエア参加させていただいた2018年5月のみんなのPython勉強会で辻さんが紹介されていた独学プログラマー Python言語の基本から仕事のやり方まで。これまで必要に迫られてPythonで書かれたプログラムの吐くエラーからコードをちょこっと直したりはしてきたものの、Pythonプログラミングをガッツリ勉強したことは実はないので、一から学び直しで読んでみようと。

まだ自分も読み進めている段階ですが、「独学プログラマー」というだけあって、書き方が丁寧で 独学向き だなと。初学者向けの文章の書き方としても大変参考になっている。

http://theselftaughtprogrammer.io/

Continue reading »


MOVE book

Written by Hidemasa Bono in misc on 金 01 6月 2018.

トップジャーナル395編の型で書く医学英語論文

research for the best cure™::blogで紹介されていたのを見て、5月の連休前に注文。しかし、結局、連休後に手にすることになったのだが。

トップジャーナル395編の型で書く医学英語論文という名前だけあって、論文をテキストデータとして分析してevidence basedに書かれていて興味深い。Intorduction, Method, Results, Discussionの4つのパートからさらに細分化して分類し、12のパーツに分けてそれぞれに関する特徴を解説している

例文の英文や頻度分析結果等は後でじっくり見るつもりで、一通りさらっと。意外にすぐに読めてしまった。書いてあることは論文をこれまで書いてきた身にとっては経験的に知り得ている内容ではあったが、頭の中が整理された。次回論文を書く際にきっと無意識のうちに参考となるのではないかと。分野は医学系とはいえ、論文を書くすべての人に参考となる内容。おすすめ。

Continue reading »


May2018

Written by Hidemasa Bono in misc on 木 31 5月 2018.

2018年5月を振り返って

4月とうって変わって、宿泊回数10日。そのうち、海外出張で6泊で、大型連休期間もあり、あまり職場に居ない月となってしまった。その海外出張に間に合わせる形で、先月拡張に力を入れたAOEの更新版を公開した。その結果AOEは、ArrayExpressとGene Expression Omnibusの両方の遺伝子発現目次となった。

DB利活用の広報活動的な外部講演は、5月は2件。昨年のBono本出版が影響してか、今年度は出だしから続いている。できるだけ 月1回ぐらいのペースで、と考えていたが、5月でいきなり破ってしまった。

その分、自分自身の公共DBを使いこなした研究が低調になってしまったのが反省材料。来月6月はここを特に頑張りたい。

Continue reading »


Shizuoka.ngs#1

Written by Hidemasa Bono in misc on 金 04 5月 2018.

エンジニアのための生命科学データ解析の勉強会@静岡

拙著『Dr.Bonoの生命科学データ解析』を題材に、生命科学データ解析の初学者や学び直したい方向けに歴史と現在の状況を理解する読書会が2017年12月に静岡で開かれた。静岡で開かれたにもかかわらずわりと盛況だったが、生命科学バックグラウンドの人が多く、そのエリアのシステムエンジニアさんの参加はほとんどなかった。

drbonobon

そこで今回、生命科学ガチ初心でもできる!エンジニアのための生命科学データ解析の勉強会 Shizuoka.ngs#1が企画された。2018年6月30日(土)、場所は前回の読書会と同じ静岡駅前。RNAの発現量を配列カウント数から推定するRNA-seqデータ解析は、生命科学初心者にも取っ付きやすいのではないかということと、次世代シークエンサーDRY解析教本にもそのやり方が載っているが、より新しい方法が使われるようになっていることなどから今回題材にあげることとなった。

NGS_DAT

私は「エンジニアのための生命科学入門」と題して最初にお話させていただきます。生命科学データ解析に触れてみたいエンジニアの皆さん、是非ご参加下さい。 申込みはconnpassのShizuoka.ngs#1のページから。会の終了後、懇親会も予定されていますので、そちらも是非。

2018年6月6日追記

ハンズオンでやる内容の資料が事前に公開されました。connpassのShizuoka.ngs#1のページからもリンクされていますが、ここです

Continue reading »


April2018

Written by Hidemasa Bono in misc on 土 28 4月 2018.

2018年4月を振り返って

年度始めとあって出張が極めて少なく、宿泊回数も2日。その分、本務先で仕事を大幅に進めることができた。

とくに、AOEの拡張にかなりの時間を割いた。NCBI GEOのデータでArrayExpressには入ってなかった分を含める一連の仕組みを作成し、来月(2018年5月)から公開する。今年度はさらにSRAの検索系とのシステム的な融合を含めて、より使いやすくしていく予定。

それ以外に公共DBを利活用してもらうための広報活動も、本務としての担当を外れて久しいが、相変わらず独自ルートでも。今月は、1件外部でのセミナーをさせてもらった。昨年のBono本出版の影響もあってか、今年度は依頼も複数件来ているが、できるだけ 月1回ぐらい のペースで続けられたらと。

もちろん、自分自身でも公共DBを使いこなした研究も、昨年度までの流れを受けて、今年度も続けてやっていくつもり。

Continue reading »


Seminar at NCC

Written by Hidemasa Bono in misc on 月 23 4月 2018.

セミナー@国立がん研究センター

今年度、初の外部出張で、国立がん研究センターにてセミナー。10年近く前に行ったことがあるから大丈夫、と思っていたが、入り口がわからず見事に迷った。

セミナーの内容は、統合データベースプロジェクトで作成維持してきたDBカタログ、DB横断検索、DBアーカイブにつづいて統合TV、Allie、inMeXes、新着論文レビューと領域融合レビューの紹介。その後は塩基配列DB、遺伝子発現DBと紹介してその応用事例としての低酸素トランスクリプトームのメタ解析について話した。60分で話すには盛りだくさんすぎたようで、最後はだいぶ端折ってしまったが。

セミナーの入りは4,50人ほどで、公共DB利用に対する関心が高いのか、多かった。旧知の方も参加しに来てくれたり。統合TV、新着論文レビューに対する認識度も高く、聴衆の約9割ほど。だが、途中で割って質問してくるようなことはなく、おとなしめ。それもあってか、淡々と話してしまった印象が演者としては残っていたものの。

終了後に新しいサービスを知れてよかったという意見があったと後日うかがい、やっぱりやってよかったな、と。まだまだ広報活動は必要だし、DBの維持同様、継続してやっていくべきことだと改めて実感。また別の研究所や大学に話に行きたい。お忙しい中お呼びいただき、ありがとうございました。

Continue reading »


ぼうのブログ resumed

Written by Hidemasa Bono in misc on 日 08 4月 2018.

ぼうのブログ再開

ぼうのブログを復活させました。古いコンテンツのインポートを試みていますが、今のところWordPressのXMLからmarkdownへの変換がうまくいかないので、古いコンテンツはぼうのブログ(Backup)から見れるように残してあります。

技術的なメモは、bonohu blogに(英語)。ぼうのブログ(ここ)は日本語での雑記がメインになる予定。

Continue reading »


自宅鯖絶不調

Written by bonohu in misc on 金 05 1月 2018.

自宅鯖にしているMac miniの調子がここのところ悪い。今朝はおそらく早朝に勝手に再起動していたし、さっきはちょっと出かけている間に固まっていた。前者は瞬電の可能性もあるのでアレだが、後者は明らかに不調の表現型。wordpress.comのバックアップサイトを常時起動するようにしておくかな…。

Continue reading »


冬休みの宿題その1

Written by bonohu in misc on 木 04 1月 2018.

ある本の分担翻訳をひとまずやり遂げてしまった。打ち込んだ文字数の合計、約5万字ほど。冬休みの宿題として持ってきたが、おそらくこの休み中には終わらず、冬の週末にと思っていたのだが。

その分野のことを広く知ってもらうために、母国語である日本語に翻訳することは、研究者にとってボランティア活動のようなものだ。完全な無報酬、ではないからプロボノ(pro bono publico)ということにはならないのだろうけど、対価を考えると安いものである。基本、業績にならないし、勤務時間以外にやったし。

とはいえ、翻訳することで実は自分も勉強させていただいた。よく知っているはずの知識が補完され、さらに再構成されて。早目に出版されるといいのだが…。

Continue reading »


Bonoがbyobuで上手にbashのスクリプトを書いた

Written by bonohu in misc on 水 03 1月 2018.

かつて紹介したbyobuであるが重宝している。とくに遠隔からたまにネットワークが切れたりすることが前提の環境における使い方で。

その場合、ローカルな手持ちのマシンではなく、遠隔のサーバーでbyobuを起動して、いくつかの時間のかかる処理を実行するわけである。私の場合、httpdのログのtail -fな監視であったり、時間のかかるデータベースのミラー作業であったり、(bashスクリプト化した)transcritopme assemblyの計算であったり、ハードディスク間のrsyncであったりする。いずれの場合も再接続した時点で現在行われている処理がリアルタイムにわかるので大変便利。

この場合、すなわちサーバーにbyobuがインストールされていないといけないのであるが、某スパコンとかでこれをやっているわけではなく、自分で管理しているマシンで立ち上げている。そうでないマシンに関してはそこから都度sshして使っている。もちろん、停電等でそのマシンが落ちてしまったらすべてのプロセスが死んでしまうのであるが。

Continue reading »


Trinity前処理

Written by bonohu in misc on 火 02 1月 2018.

遠隔作業が可能なので、時間のかかる処理を仕込みつつ。

fastq-dumpでヘッダを変えたFASTQでは、Trim Galore!(cutadapt)によるトリミングが失敗するようなので、仕方がなくTrinity(v2.5.1)が実行できるようなヘッダに書き換える以下のようなフィルタ(for_trinity.pl)を書いて処理。ペアエンドのみの対応。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
#!/usr/bin/perl
my $c = 0;
my $strand = shift(@ARGV); # 1 or 2
# STDIN: fastq file …

Continue reading »


2018年の計

Written by bonohu in misc on 月 01 1月 2018.

年頭恒例にしているその年の計。「2018年、かくありたい」

  1. 引き続き、ずっと取り組んでいるメインの仕事、公共DBの全レコードを対象としたデータ解析研究に力を注ぎ、懸案の仕事を論文化したい。

  2. その上でそれを利用した研究を進め、グラントを獲得できるようにしたい。

  3. SNSに割く時間を減らして、考えていることの情報発信をこのブログなど、他の便利ツールに頼らないやり方でより発信していきたい。

Continue reading »


2017年反省会@温泉インフォマティクス研究会

Written by bonohu in misc on 金 29 12月 2017.

温泉インフォマティクス研究会を単独開催して、2017年の反省会。場所はいつものところに。頭の整理をするために、この温泉に度々来た2017年であった。

Bono本の構想もここで考え、湯船で考えた末に思いついたことを脱衣所でメモったこともあった。第2章と第3章を入れ替えた方が良いかもと思いついたのもこの温泉で考えた末だった。

今回はそういう構想を練るとかいうよりは、現在進行しているプロジェクトを頭のなかで整理して「やきなます」イメージで。優先順位の確認というか。「確認」ばっかりしていて進んでない気もするので、もっと2018年はせめて行かねばね。

Continue reading »


2017年出張外泊数

Written by bonohu in misc on 水 27 12月 2017.

三島に勤務しだした2014年から数えている「仕事で外泊」した日数。本日(12月28日)で仕事納め、というわけで、2017年の日数確定。 去年と同数の77泊。2014年50泊、2015年65泊、と年々増加してきたので、今年は抑制気味にしていたのだが、結局減らなかったという結果。さらなる抑制が必要。自重もだが。

Continue reading »


dockerでfastq-dump(続き)

Written by bonohu in misc on 火 26 12月 2017.

- Docker

前のエントリを書いたら、pfastq-dumpを作っている@iNutさんからまた別のFASTQファイルを生成するdockerコンテナを教えてもらった。

docker run --rm -v "$(pwd)":/data -w /data 
inutano/sra-toolkit fastq-dump --split-files SRR1864696.sra

こちらの場合は、コマンドラインを見ての通り、すでにSRAファイル(.sra)を前もってローカルにダウンロードしておかねばならないが、この方がネットワークトラフィックも少なく、かなり高速である。前の例では約1時間かかった17Mreadほどのこれも3分程で。

また、この例のSRR1864696はPaired end readなので、ペアごとに別のFASTQファイルに分割する必要があるが、そのオプションである--split-filesも上記の例のように足せば問題なく反映される。

そして、データ取得も海外からではなく、日本の遺伝研にあるDDBJにあるSequence Read Archive(SRA) からダウンロードしてくることで高速になる(DDBJ sequence …

Continue reading »


dockerでfastq-dump

Written by bonohu in misc on 火 26 12月 2017.

- Docker

SRAデータの再利用で困っているのでよく聞くのが、FASTQファイルが得られないという声。FASTQファイルでの配布は新規にはされていないので、SRA(.sra)形式でのファイルを取ってきてfastq-dumpコマンドを実行する必要があるわけであるが、このコマンドのインストールが上手く行かなかったりする模様。

そこでdockerを使ってコマンドを直接インストールすることなく実行できるようにできないかと考えたが、やはりすでにやっている人がいた

このページにある通り、SRR-ID.txtというファイルにrunのIDを改行区切りで書いて、dockerが起動している状態で

docker run -v '/Users/bono/Downloads':/tmp cyverseuk/fastq-dump SRR-ID.txt

のようなコマンドを実行するとfastq-dumpをインストールすることなしにそのrunIDのFASTQファイルがダウンロードできる。していたディレクトリ(この例の場合、/Users/bono/Downloads)の中に、SRA_downloadという名前のディレクトリが作成され、その中にFASTQが生成される。ただ、物凄く容量が大きいうえに非圧縮のテキストファイルがそのままダウンロードされてくるため、(17Mほどのreadであったが)1時間ほどダウンロードにかかったが…。

もちろん、dockerが手元のマシンにインストールされていないとダメだが、WindowsでもMacでも簡単に使えるようになっているので、とくにWindowsでデータ取得をしたい場合にはこれであっても便利かもしれない。

(続く)

Continue reading »


Trinityが動かない問題再燃

Written by bonohu in misc on 月 25 12月 2017.

Trinityが動かない問題再燃。使っているバージョンは2.4.0。

以前に言及したFASTQヘッダの問題かと思ってfastq-dumpをいじってみた。

fastq-dump --defline-seq '@$sn[_$rn]/$ri' --split-files hoge.sra

が、そうして生成されたFASTQファイルは逆に、trimming(Trim Galore!)が動かなくなった。そこで、普通にfastq-dumpして得たFASTQファイルにtrimming後、FASTQファイルのヘッダファイルを改変するようにフィルタを書いてやってみたところ、動かない。その際、ご丁寧にbzip2圧縮していたのだが、どうもそれがまずいような気がした。というのも、実行がすぐに終わり、結果ファイルがちゃんと出来てないからだ。そこで圧縮を解いたファイルを指定してみると…。bzip2圧縮されていることが障害になっていた模様。ひょっとするとgzip圧縮なら問題ないのかもしれないが。

Continue reading »


英語版プレスリリースの威力

Written by bonohu in misc on 土 23 12月 2017.

RefExの論文を2017年8月末に出したが、その英語版プレスリリースを11月頭に出してもらった。

すると、英語版のそういったニュースにも取り上げてもらい、その種の英語の著名なブログでもネタとして採用していただき。結果として論文のaltmetricsのスコアが上昇。その準備や手続きは大変だったものの、やってよかった感が非常にあった。

もし出してもらえるのなら英語のプレスリリースも是非検討すべき。次回からは必ずそうしたい。

Continue reading »


'今日のワンライナー: Perl -a'

Written by bonohu in misc on 金 22 12月 2017.

今日のワンライナー。普通なら

cut -f1,3 hoge.txt

で済ますところだが、さらなる処理、IDのバージョン情報を取る(s/.d+//)とか必要な場合にPerlで処理したい場合、こんな風に。

perl -anle 'print "@F[0]t@F[2]"' hoge.txt

-aはawkモードの意味らしい。

-Fでフィールドセパレータを変えたりとかもできるらしいが、多くはタブ区切りのこの業界。

Continue reading »


NBRPシンポジウム2017

Written by bonohu in misc on 水 20 12月 2017.

ナショナルバイオリソースプロジェクト(National BioResource Project; NBRP)のシンポジウムに参加。今年度(2017年)から第4期が開始ということであったが、それは5年を1期とするプロジェクトが3回行われ、今年度から4期目が始まったという意味で、つまり16年目。非常に長きに渡って続けられているプロジェクトらしい。30種類の生物というか、生物群に対して支援がなされているとのこと。

統合DBとの接点というか、お互いwin-winになれる部分がないか、と話を聞いたが、その生物学的なコンテンツのおもしろさに魅了された。異なる生物でも同じようなターゲットをやっていることにほくそ笑んだり。今のところは、今のオミックス目次をガッツリ使ってもらえるレベルにまで完成度を上げることが私がやるべきことかなという結論。

Continue reading »


SPARQLthon63

Written by bonohu in misc on 木 14 12月 2017.

BH17.11の続き。NCBI GEOのメタデータをDBCLS SRAのAPIから取得してこれるよう、AOEのコードを追加。そしてそれらをGitHubにアップすべくまとめたり、ドキュメントを充実させたり。短いコードであってもそれらを書き散らすのは楽しい。

Continue reading »


Pythonオープンサイエンスシンポジウム in つくば

Written by bonohu in misc on 火 12 12月 2017.

普段日程が合えば参加しているみんなのPython勉強会(Start Python Club)が、Pythonオープンサイエンスシンポジウムをつくばで開催。これまたちょうど都合がよかったので参加。

いろんな研究分野でPythonを使っている人が増えていることが実感できるとともに、そういった研究分野の一端を知るキッカケに。それがむしろ私にとっては興味深かった。また、そういう方々と知り合いに。もちろん、懇親会まで残って膝を突き合わせて色々話したから、ではあるが。他の分野の方々のお話を聞くことは重要。自分のやっている研究分野(生命科学)がどういう立ち位置にあるのか知ることができて。たまにはそういう機会があるべきだなと。

いろいろとおもしろくなってきた。

Continue reading »


ConBio2017 4日目

Written by bonohu in misc on 土 09 12月 2017.

最終日は、RefExとAOEの口頭発表。今回は@h_ono氏が発表をやってくれた。2年前に同じく神戸で(その時は自分が)口頭発表したときに比べて、disり質問もなく。(今は)公共データを再利用しよう、という流れをここでも感じた。遺伝子発現データの利用事例をもっと作って発表していこう!

そして、ランチの時間帯に行われたJSTのバイオサイエンスデータベースセンター(NBDC)のフォーラムだが…公共データベース利活用がはやりの流れからか超満員となり、嬉しい悲鳴だった。データベースに対する関心は我々の想像を超越していた感。もっと「どう使ったか」伝えられるような、そういう事例を作っていかないと(シツコイようだが…)。

Continue reading »


ConBio2017 3日目

Written by bonohu in misc on 金 08 12月 2017.

この日には夜に癌研究者の集まりに。毎度研究コミュニティーのsmall world感を感じながらも、初めて会った人にも統合TVすごく使っていただいていることをお話いただいて、やってきた良かったなあと。

その一方で、ブース展示するたびに統合TVをまだ知らない研究者に紹介しつづけている現実もあり、そういった層にもっとリーチするにはどうしればいいかを考えるキッカケになったり。物凄く効率の良い手段なんてないんだろうけど。

Continue reading »


ConBio2017 2日目

Written by bonohu in misc on 木 07 12月 2017.

2日目はブース対応をメインのはずだったが、Bono本サイン会があったりして迷惑かけてしまった…。そちらのイベント自体は大成功だったのだが。

この日の夜には「統合データ解析環境 Galaxy を使った再現可能なデータ解析」のフォーラムがあって参加したが、フォーラムとは思えない人の入り(約80名!)で、関心の高さが窺い知れた。ユーザーコミュニティがさらに広がっていくといいな。

Continue reading »


ConBio2017 1日目

Written by bonohu in misc on 水 06 12月 2017.

ConBio2017は初日の午前にいきなり主宰ワークショップ「いかにして『使える』データベースを維持し続けるか?」から開幕。以下のような豪華な演者陣でバイオなデータベースをめぐるさまざまな立場からお話いただいた。

  1. 高木氏 「ライフサイエンス統合データベースプロジェクトから学ぶこと」 20171206ConBio_takagi(PDF)

  2. 粕川氏 「FANTOMプロジェクトおよび一細胞データベースSCPortalenにおけるデータリソース維持管理の取り組み」 https://doi.org/10.6084/m9.figshare.5682850

  3. 林氏 「オープンサイエンス政策とその実践が目指す研究者社会に向けて」 https://doi.org/10.6084/m9.figshare.5691196

  4. 新谷氏 「論文の補足資料を越えて:リポジトリとデータジャーナルによる効果的なデータ共有」 https://doi.org/10.6084/m9.figshare.5687536

  5. 八塚氏 「生命科学におけるオープンデータの理想と現実」 https://doi.org/10.6084/m9.figshare …

Continue reading »


ConBio2017 0日目

Written by bonohu in misc on 火 05 12月 2017.

次の日朝イチで主宰ワークショップだったので、午前にミーティングに出てから午後に移動で、前日入り。それに乗じて途中下車して共同研究打合せ。結果として、ミニハッカソン@グランフロントみたいになり、有意義な打合せができたかと。

それにしてもJR大阪駅は日本各地の料理が食べられるグルメスポットになっていて。変わったな。

Continue reading »


BH17.11

Written by bonohu in misc on 金 01 12月 2017.

2017年の国内版バイオハッカソンは熊本にて、11月26日〜12月1日まで。 AOEのコード群をDBCLS傘下のGitHubに移し、書き散らしていたコードをまとめたり、発現定量値を使ったソレを議論したり。その裏で、共同研究の配列データ解析も進めつつ。 途中の日から会場の隣に岩盤浴のある日帰り温泉施設があることがわかり、温泉インフォマティクス研究会を開催。でも帰ってきたら体重は増加していたというオチ。食欲の秋だった。

Continue reading »


Annotathon2017

Written by bonohu in misc on 木 16 11月 2017.

今回で2回目のアノテーソン。ゲノム配列解読系の人が多かったような。自分の考えていた「アノテーション」とは違う世界に戸惑うものの、アップデートされたデータに対するデータ解析が不十分なことを思い知らされた。それもやらねば。 アノテーションで用いるツールを参加者みんなでリストアップしたのは、大きな成果の一つ。

Continue reading »


kallisto

Written by bonohu in misc on 水 15 11月 2017.

遅ればせながら、kallistoを試す。日本語でブログに書いている人もいる模様だが、最新の情報は英語の本家のドキュメントから

indexはtranscriptのFASTAファイルに対して。つまりtranscriptごとの発現定量がなされるわけである。

time kallisto quant -i index -o results/ -t 12 test1.fq test2.fq 23Mのpair-end readのGRCh38なtranscriptでの定量が

275.06s user 9.22s system 438% cpu 1:04.81 total

つまり約1分。爆速である。

time kallisto quant -i index -o results/ -t 12 -b 100 test1.fq …

Continue reading »


第15回がんとハイポキシア研究会2日目

Written by bonohu in misc on 土 11 11月 2017.

日が変わってもなお議論。いつにも増してハードな会となった。

自分ですべての「データ」を出すだけでなく、公共データベースにいろいろと利用可能なのだから、それらを活用すればいいのに、と思ったこと多数。まずはそういうのが使えるということを認識して使ってみるというところから。

次回、第16回がんとハイポキシア研究会は2018/11/9-10にホテルグリーンタワー幕張で、とのこと。

Continue reading »



みんなのPython勉強会#30

Written by bonohu in misc on 水 08 11月 2017.

2017年5月以来、半年ぶりに参加。期せずして3冊のPython本の著者の人が話される節目の勉強会30回目で、大変参考になった。その3冊とは、以下の通り。

  1. 「いちばんやさしいPythonの教本」

  2. 「Pythonエンジニア ファーストブック」

  3. 「PythonユーザのためのJupyter[実践]入門」

Bono本とその読書会の宣伝もLTしたものの。反応が鈍くて残念。生ビールを飲みながらの歓談には敵わなかった感。

それでもまたスケジュールが今回のようにうまくあったらまた参加したい。特に次回は、2017年12月12日(火)に「Pythonオープンサイエンスシンポジウム in つくば」ということで、つくばでオープンサイエンスと銘打ってPythonによるデータ解析の話の回として昼間に開催されるので可能なら参加したい。本日(2017年11月9日正午)より募集開始で、参加者多数の場合、抽選になるようだ。

Continue reading »


日付変更線

Written by bonohu in misc on 日 05 11月 2017.

日付変更線を越えてきたため、私にとっての今日の日は物凄く短く、すぐに終わってしまった。11月1日が37時間あった分のツケ。

Continue reading »


Genome Informatics 2017 day4

Written by Hidemasa Bono in misc on 土 04 11月 2017.

Genome Informatics 2017 day4

カードキーがいきなり磁気が飛んで無反応になるやシャワーのお湯がなかなか温かくならない等、いろいろあったが、基本楽しめた。 とくにScientificには大満足。 このConferenceは一番自分に合っていることを再確認。

次回はイギリスで2018/9/17-20、次々回はCSHLで2019/11/6-9の予定とのこと。 できればまた自分で参加したい。

Continue reading »


Genome Informatics 2017 day3

Written by Hidemasa Bono in misc on 金 03 11月 2017.

Genome Informatics 2017 day3

日本は祝日らしいが、こちらはとくに祝日でもないので、普通にセッションが朝から晩まで。

最初だけかと思っていたら、ずっとヒトに関する応用ばっかりで。 ポスター発表にはそれでもまだ植物系のものもあるのだが、ショウジョウバエやC.elegansのそれは皆無。 非モデル生物を主戦場とするようになってそこが気になるようになったのだろうか?

いくつか、新しい解析プログラムに関しても情報を得て、大変満足。 今後出て来るであろう、役立つリソースに関しても。 帰ったら早速試そう。

Continue reading »


Genome Informatics 2017 day2

Written by Hidemasa Bono in misc on 木 02 11月 2017.

Genome Informatics 2017 day2

twitterから得た、参加者らしき人のtweetによれば、229の発表があり、そのうち44が口頭発表で残り185がポスター発表とか。 参加者数は345とか。これもtwitter情報

発表者のLast nameのアルファベット順にポスター番号が振られ、口頭発表も含めて分け隔てなくsimpleにナンバリングされるのは相変わらず。 abstractのページ数がそのまま自分のポスター番号になっている。 上記の通り、総ポスター発表数が多く、会場が2つに別れたばかりか、会期中張りっぱなしでなく1日だけで、今日2日目が自分はポスター発表だった。 今回は多数ポスター発表を聞いてくれる方が来て、論文が出たタイミングの発表だったので、さまざまな質問にも明快に答えられた。 人が途切れたときには他のポスターを見て回る時間も取れて、個人的には満足。

夕方ぐらいまでは大丈夫だったが、結局時差ボケ辛くて早めに寝てしまった。 シエスタ必要だったかもだが、スケジュールが詰まっていて無理。 かつては緩いスケジュールが印象的だったCSHL meetingだったのだが。

Continue reading »


Genome Informatics 2017 day1

Written by Hidemasa Bono in misc on 水 01 11月 2017.

Genome Informatics 2017 day1

2017/11/1-4まで Cold Spring Harbor Laboratory (CSHL) で開かれている Genome Informaticsに参加。 隔年でCSHLとWellcome Genome Campusとで開かれていて、今年は米国で。 実は、第1回目に出ていて口頭発表しているという最古参。 しかしながら、ここ最近はわりと同僚の誰かがこのmeetingに出ていることが多く、自分自身が出るのは調べてみたら、なんと ~~6~~ 7年ぶりということで、かなり久しぶり。 そして、CSHLに来るのも3年ぶり。ガッツリ勉強してきたい。

Continue reading »



SPARC Japan 2017 2nd done

Written by Hidemasa Bono in misc on 月 30 10月 2017.

第2回SPARC Japan セミナー2017「プレプリントとオープンアクセス」無事終了

セミナー企画ワーキンググループメンバーの担当として企画から関わった第2回 SPARC Japan セミナー2017「プレプリントとオープンアクセス」が無事終了した。 企画自体は8月頭ぐらいから開始していたものの、大変申し訳無いことに本業の論文出版とプレスリリースや、なぜかこの季節に来てしまった講演クラスターと9月初旬のバイオハッカソン、そして私事ではあるが9月末のBono本の出版など、いつになく時間が取れず、結果として周りに迷惑をかけてしまった。 とくに一緒に企画に入っていただいた方お二人には本業もお忙しいところ多大なご助力をいただいた。 今後はこういった仕事を引き受ける際にはそういったことが重ならないよう、うまく調整する必要があることを今回学んだ。

今回司会は初めてで、至らないところだらけで運営には迷惑をかけてしまったかもしれない。 個人的には、セミナー自体はプレプリントに関する最新の情報を知ることができ、大変勉強になった。 総合討論は時間を持て余すのではないかと恐れていたが、結果として盛り上がったところで時間となってしまう感じで、とても良かったかと。 そしてなにより、その後の反省会で異分野交流ができたことが一番の成果だったかと。関係者の皆さん、お疲れさまでした。

しつこいようですが。 このSPARCは、こっちのSPARQLとは関係ありません。

Continue reading »


SPARQLthon61

Written by bonohu in misc on 火 24 10月 2017.

台風直撃により、前日入り。いろいろ作業を進めて、それぞれそれなりに進捗があったのだが、SPARQLthonでメインでやるべきAOEまわりはほとんど進まず、無念。今年度の開発の仕様を固める文章化を進めるべし。

Continue reading »