Category: misc

how to type backslash

Written by Hidemasa Bono in misc on 水 01 5月 2019.

バックスラッシュを打つ設定

新学期でUNIXコマンドを使い始めた方も多いだろう。 その際によく受ける質問で最近気になっているのは、アルファベットや数字ではない記号がどこにあるのか、というものだ。 特に\(バックスラッシュ)はどこにあるのか、ということは定番中の定番だ。 使っているキーボードの種類にもよるが、最近のアップルの日本語キーボードだと、それは円記号¥のキーで打つことができる。 あまり使わないためにデフォルトの設定では打てないようになっている。

それを打つためには、以下のように設定変更する。 「システム環境設定」→「キーボード」で「入力ソース」タブの下の方、「"¥"キーで入力する文字」を「円記号」から「バックスラッシュ」に変更

バックスラッシュを打つ設定

かつては円記号が表示されていてもバックスラッシュとして解釈してくれるようになっていたが、最近の「ターミナル」ではそれらを区別してしまうようなので注意が必要である。

Continue reading »


Exit Wordpress

Written by Hidemasa Bono in misc on 火 30 4月 2019.

過去のブログコンテンツの統合

休日ともなると余裕ができる。 一年前からの懸案である、WordPressで作りためたコンテンツの統合。 再開当時はWordPressのXMLからmarkdownへの移行ツールが見つけられなかったが、今ならどうかなと再度チャレンジ。

xml2markdown wordpressでググって、exitwpというWordPressのXMLをjekyllのmarkdownに変更してくれるツールを見つけた(こちらで使うのはPython謹製のpelicanなのだが)。 ただ、Python2で書かれたツールで、PyYAMLをpip2 installする必要があったが、ちゃんとWordPressのXMLをmarkdownに変換してくれた!

コンテンツのカテゴリーなど、互換性のない部分もあったが、その辺はコマンドラインで以下のような感じでよしなに処理。

1
2
3
4
#!/bin/sh
for f in 20*; do
 grep -v ^"- 雑感" $f > tmp/$f
done

してからmv tmp/* .して。 また、amazonへのサムネール付きのリンクも、HTMLを手動で追加 …

Continue reading »


April2019

Written by Hidemasa Bono in misc on 火 30 4月 2019.

2019年4月を振り返って

4月は絶望より始まった。 やるべきことをやるしかないという思いで「引きこもって進めた」結果、出張は比較的少なく、宿泊回数3泊。 そして、AOEの外堀を埋めて完成版とした。 次のステップをより再現性よく、またどこでも計算できるように進めるべく、meetupに出てCWL化への意識を高めたつもり。

共同研究に関しても、何回か来てもらうことで議論し、結果として色々進んだ。 今月発表した論文のように、粛々と形にしていこう。

また、母国語での執筆活動に関しても山は越えた感。 こちらも目標の出版期日を目指して、順調に進めていきたい。

Continue reading »


15th Workflow Meetup

Written by Hidemasa Bono in misc on 水 24 4月 2019.

Workflow Meetup@東京日本橋

同僚に教えられ、15th Workflow Meetupに初参加。 東京会場は、COREDO日本橋にある理化学研究所 東京連絡事務所(15階)だったのだが、そこも初という、初めてづくし。 しかしながら、Workflow言語であるCommon Workflow Languageの話は2018年末の松江のBioHackathon2018で教えてもらって興味を持って取り組みつつある技術ということで、そこまでお初でもなく。

牛はらみ肉をランチにいただくなど、腹を割ったさまざまな情報交換のほか、個人的な作業としては、Pitagora Workflows in CWLにあるRNA-seqのワークフローを使いこなすべく、先人たちの業績を紐解いて自分の環境で動かせられるか、に取り組んだ。 会場ではkallisto indexを動かそうとして、一つバグを発見して、最終的には動かす(手元にあったtranscriptome reference配列のkallisto indexを作成する)ことができた。

次の日にkallisto quantも無事動いて、新しいMac miniでconda install kallistoすることなく …

Continue reading »


Shizuoka.ngs#2

Written by Hidemasa Bono in misc on 日 21 4月 2019.

エンジニアのための生命科学データ勉強会@静岡#2

昨年、生命科学ガチ初心でもできる!エンジニアのための生命科学データ解析の勉強会 Shizuoka.ngs#1が2018年6月30日(土)に静岡駅前で行われた。 自分は、「エンジニアのための生命科学入門」と題して小一時間話させていただいた。 実はちょうどその頃、個人的には生命科学データ解析を支える情報技術(以下、IT4BDA)を執筆している最中で、どういった反応がくるかを楽しみにしていたというのは今だから言えること。 懇親会最後まで残った何人かの人と色々と話をさせていただいたことは本を書く糧となったことは言うまでもない。

そして、今年も前回と同じ静岡駅前で2019/06/22(土)に、「エンジニアのための生命科学入門」と題して今回も最初にお話させていただきます。 RNAの発現量を配列カウント数から推定するRNA-seqデータ解析は、生命科学初心者にも取っ付きやすいのではないかということで、IT4BDAにも遺伝子発現データ解析の実際として第2章に取り上げられており、それをハンズオンとしてみんなでやる予定になっています。

生命科学データ解析に触れてみたいエンジニアの皆さん、是非ご参加下さい。 申込みはconnpassのShizuoka.ngs#2のページから。

Continue reading »


Beyond differentially expressed genes

Written by Hidemasa Bono in misc on 金 19 4月 2019.

DEGノムコウ

発現差のあった遺伝子群のことをDifferentially Expressed Genes(DEG)と呼ぶのは、Allie的にもぶっちぎりのトップとなっている今日この頃。 そして、詳細ページを見ると2004年から文献中に登場して、年々この略語の出現数が増えてきていることが(描画までにちょっと時間かかるものの)ヒストグラムからわかる。

DEGノムコウに出口(デグチ)を探す。 日常的にそんなこともやっているわけだが、イソフルランを投与した/してない細胞での発現のようにDEGがほとんどないケースもあれば、その逆もある。 いずれの場合も通りいっぺんのやり方ではなく、生物学的な知識に基づいたデータ解析が必要となる。 そこのプロセスの欠如がいろんなところで問題となっているのではなかろうか?

それにしても、相手が知らないことを知り得るのは、生命科学データ解析本作家的にはまたとない素晴らしい機会である。 実際のデータ解析のゲンバに居るからこそ、可能となることである。 まだしばらくはこちらで頑張りたい。

DEGのむこうには もう次の論文が待っている…

Continue reading »


half time of my research life

Written by Hidemasa Bono in misc on 日 14 4月 2019.

研究人生の中間地点

大学院を出て働き出した2000年から今年2019年で、19年。 そして、65才まで働くとして(これは怪しいが)、あと19年。 今年は、そのちょうど中間地点の年。 その年から初めた遺伝子発現のデータベースを未だに、しかもメインテーマでやっているのだから不思議なものだ。 変に老成することなく、もっともっと攻めていかなければ。

Continue reading »


thanks to jupyter bon

Written by Hidemasa Bono in misc on 土 13 4月 2019.

Jupyter本のサンプルコードのおかげで解決

諸事情あって、可視化をPythonでやろうとして、Jupyter notebookでグラフなどを出そうとしていた週末。 平日にはやらないような写経とかを楽しみながらも、どうやっても本にあるようなグラフがJupyter notebookで出なくて。 まずは、Jupyterのインストールがおかしいんじゃないかと、condaでいれてあったのを全て消してpip経由のインストールに替えたり。 matplotlib周りのおまじないのせいかと思って色々と試してみたが、それでも解決せず。 やっぱりグラフがインラインで表示されなくて、なんでだろうと色々もがいた挙句に。 公開していただいていたJupyter本のサンプルコードをみて気がついた。

そう、自分のコードはJupyter notebookのコードセルに1行ごとに実行していて、このサンプルコードにあるようにカタマリでコードセルに突っ込んでない、ということを。 それで全てが解決してうまく動くようになった。 ありがとう、Jupyter本のサンプルコードウェブサイト!

Continue reading »


AOE layer the 3rd

Written by Hidemasa Bono in misc on 金 12 4月 2019.

AOEの外堀

SRAにRNA-seqとして登録されているものの、NCBI Gene Expression Omnibus(GEO)やEBI ArrayExpress(AE)といったいわゆる遺伝子発現データベースに登録されていないデータを抽出してAOEに突っ込んだ。 DDBJ Genomic Expression Archive(GEA)は先月末の作業で取り込まれるようにしたが、今回さらに懸案だったのを対処した形。 お堀に例えるなら、AEとGEA分が内堀、GEOで中堀ときて、SRAにあるRNA-Seqデータを取り込んで、外堀を埋めた感じである

全く僅かな数ではなく、Seriesカウントで約一万ちょいある。 これらのデータは一体なんなのか。 実はdbGaPやEGAに入っているエントリでメタデータだけあるだけなののか、それとも…。 個別のエントリをガッツリみていかないとわからないが、取りこぼしはこれでないい言うレベルまできた感。

裁きの日は近い。

Continue reading »


4 years have passed

Written by Hidemasa Bono in misc on 水 03 4月 2019.

あれから4年

前職で採用面接から立会い、プログラミングもできる分子生物学研究者(彼はスイッチヒッターと言っていた)として一緒に研究してきた彼が亡くなってから今日で丸4年。 今日4月3日は彼の命日。

それ以前は、癌学会学術集会では夜一緒に行動していたから、学会の夜をどう過ごすかが課題に。 それも新しい知り合いのおかげで、徐々に立ち直ってきた感じ。 今年は話に呼んでいただいて、早々に参加することが決まったし。

今年も年頭にまた三島で知り合った同志を癌でなくしてしまった。 お互い分かり合えたよい飲み友達だったんだけど。。 その都度、生きるとはどういうことか、考えさせられる。 彼にも教えてもらったように、命ある限り、楽しんで生きていく。 でも、楽しみ方は人それぞれ。 価値観の押し付けはやめてね。

Til we die I'll be loving you dear

Continue reading »


March2019

Written by Hidemasa Bono in misc on 土 30 3月 2019.

2019年3月を振り返って

月初めからつくばまで行って農研機構 生物機能利用研究推進会議で登壇するなど、1月と2月の合計6泊よりも多い宿泊回数7泊の3月だった。

さらに、月初の阪大医学部Python会の2人の春合宿や、月末のSPARQLthon78など、三島に人が来る機会も多くかなり忙しい月であった。

参加させていただいたAMED-GA4GH GEM Japan ワークショップ 2019 仙台など、人と協調して動く仕事はそれなりに進んだ。 しかしながら、その分自分自身がメインで進めるべき公共DBを使いこなした研究が比較的低調だったのが反省材料。 特に原著論文の執筆。 来月2019年4月は、年度も変わるし、引きこもって進めたい。

Continue reading »


odokon2019

Written by Hidemasa Bono in misc on 水 27 3月 2019.

日本応用動物昆虫学会大会2019@つくば

2019年3月25日〜27日まで、第63回日本応用動物昆虫学会大会がつくばで開かれ、25と26日に参加。 昨年は小集会の講師として参加し、今年はサテライト的な講習会の講師。 学会員でもないのに、結果として3年連続の参加となった。

今年は特にRNA-seq解析をやっている演題が目についた気がした。 そればかりか、それ関係のお問い合わせを廊下でお会いした知り合いから受けるなど。 RNA-seqデータ解析を日常的にやっているが故の色眼鏡なのか、それとも本当にそうなのか。

遺伝子発現定量の技術として自分が日常的に関わっている手法が、昆虫学においても応用されていることは非常に喜ばしいことだ。 自身の研究にうまく活用されんことを願ってやまない。

Continue reading »


AJACS insect special1

Written by Hidemasa Bono in misc on 日 24 3月 2019.

2019年応用動物昆虫学会大会連動企画 データ解析講習会

2019年3月25日〜27日まで、第63回日本応用動物昆虫学会大会がつくばで開かれる。 それに連動して、その前日の2019年3月24日にデータ解析講習会を柏の葉キャンパス駅前のDBCLS柏にてやろうということで会員の方に企画していただき、自分は講師を務めた。

2018年8月に行ったROIS-DS-JOINTの研究会「昆虫のゲノムデータベースとそれを活用したデータ解析 II」と連続して行った、AJACSa5柏をベースに内容を考えたが、結果として全く同じとは言えないほど変わってしまった。 いつものAJACSシリーズと同じGitHubに使ったテキストはアップしてあるので、参考まで。

シェルスクリプトの説明とかもっと饒舌気味に説明すべきだった、など色々と反省点はあるが、ちょっとは参考になったのであれば幸い。 あとちょっと、ちょっとの辛抱だ(意味深)。

Continue reading »


Kaiko no jikkentan

Written by Hidemasa Bono in misc on 土 16 3月 2019.

カイコの実験単

Amazonでは2019年3月22日発売予定のカイコの実験単。 この本の企画編集委員をされていた共同研究者よりご恵投いただく。 ありがとうございました。

この本の副題には「生物の授業やクラブ活動で使える実験集」とあり、難しい漢字にはふりがながふられていたり、中高校生向けに配慮されたやさしく書かれた内容である。

共同研究としてカイコの遺伝子配列解析には長年携わってきてはいるものの、生物としてのカイコに対してはまだまだ不勉強で、興味深く読み始めたところ。

p122の実験13「データベースを利用したカイコのもつ遺伝子の相同性検索と分子系統樹の作成」は普段自分自身が書くような内容で、そういった内容が本に収録されていることがとても興味深い。 コンピューターを使ったDRYな実験であり、カイコを飼わなくてもインターネットに繋がったコンピューターがあればすぐにできる。 また、発展的課題として統合TVが紹介されていて、大変嬉しく思った。

オールカラーで写真がふんだんに入っていてこの値段なのだから私などからすると大変お買い得な本ではないかと。

Continue reading »


IT for Biological Data Analysis in stapy 43rd

Written by Hidemasa Bono in misc on 水 13 3月 2019.

みんなのPython勉強会#43

前回、参加できなかったみんなのPython勉強会。 ここのところスケジュールの都合がつかず、2018年の秋からの新しい会場になってから長い間参加できなかった。

今回は、スケジュールが合ったので、久しぶりに参加。 新しい会場もだが、内容的にもPyLadiesとのコラボmeet upということで、フレッシュな話を聞くことができた。 プレゼン術にしても、対象としている内容についても、自分の凝り固まったそれとは違うものであり、新鮮だった。

まーやさんのお話「PyLadies Tokyo About Us 〜ふんわりコミュニティ論〜」で、PyLadies Okinawaの立ち上げの話を聞いた。 そこで、バイオインフォマティクスなご当地の知り合いに聞いてみたところ、なんとオーガナイザーだとか。 ギョウカイの狭さを勉強会に来てまで思い知るなど。

また、LightningTalkで自ら「生命科学データ解析を支える情報技術」を紹介してきた。 研究会のウェブサイトからもリンクしておいたが、ここにもそのプレゼンを貼っておく。

stapyがきっかけになって出版されることになった本、ということで。 そういった本が他のいろんな分野で続けばいいなと期待。

Continue reading »


RNA-seq data analysis in-turn

Written by Hidemasa Bono in misc on 金 08 3月 2019.

阪大医Python会春合宿@三島

阪大医Python会の優秀なる2人の医学部生が、春合宿と称して職場に来襲。 3/4-8までの5日間滞在。 その間、共同研究者も彼らの来襲に合わせて来訪して、その打ち合わせもあったり、DDBJミーティングなど、いくつかイベントがあったのだが。

RNA-seqデータ解析合宿、ということでリファレンスゲノムありのデータ解析も、なしのデータ解析も両方とも一通りやってもらった。 その様子は、かつての統合牧場を彷彿するありさまで、GitHubにログを残していってくれた。

かつて統合牧場では、はてなダイアリーにみんなログを残してくれていたのを思い出してたいへん懐かしかった。

富士山撮影

統合牧場の彼らがそうであったように、知識に貪欲で(美味い飯にも)、いろんなことに興味を持ってくれて、我々の方が却って活性化された感。

幅優先探索気味なのは、若さがゆえかな。 ものすごく最先端のことをよく知っている一方で、意外な知識が抜けてて驚くことも多数。 でも今なら、「Bono本のxxページに載っているよ」と返答できるのはいい時代になったな、と実感。

今後もこういう形式のインターンは学生さんの長期休暇を利用して受け入れられるといいな。 旅費などの金銭的な援助もなんらかの形で考えねばならないのが今後の課題。

Continue reading »


The Introductory Bayesian Statistics Course by High School Girl Ranko

Written by Hidemasa Bono in misc on 日 03 3月 2019.

女子高生乱子によるベイズ統計学入門講座: とある弁当屋の統計技師(データサイエンティスト) 3

かつて職場に大学院生RA(Research Assistant)が多数来てくれるきっかけとなった「Rによるテキストマイニング入門」を著された石田基広先生より「女子高生乱子によるベイズ統計学入門講座: とある弁当屋の統計技師(データサイエンティスト) 3 」をご恵投いただく。

ベントウさんシリーズ3作目。

もちろん今回も共立出版から、なのだが、もっと堅い出版社というイメージを払拭するかのような表紙で。 実際には表紙だけでなく、挿絵にも同じイラストレーターによる絵が内容とキッチリ連動しており、素晴らしい。

前作も前々作も楽しく読ませていただいたが、今回も非常に明快に実例でベイズ統計学入門が説かれていた。 Excel方眼紙に関して例示があり、どういう形でデータを入力すべきかが書かれていて、今後のリファレンスとしたい。 端々にtwitterで話題となっている昨今の大学事情が織り交ぜられており、大変楽しい。 それだけでなく、最近の学問的な流行りなども会話口調で登場人物によって語られており、個人的には知識の整理に有用だった。

次回作、期待してます! (生命科学データ解析とかw)

Continue reading »


NARO NIAS

Written by Hidemasa Bono in misc on 金 01 3月 2019.

農研機構 生物機能利用研究推進会議

農研機構の生物機能利用研究部門の会議に特別講演に呼ばれたので、つくばまで遠征。 「公共データベースを利用した知の巡りのより生命科学研究」と題して40分話させていただいた。 DBCLS/NBDCでやってきた通算13年の活動に関して、農研機構での活用を意識した形で紹介させていただいた。

私の話のあとには、農業情報研究センターのセンター長がお話しされた。 先駆的なearly adaptorは利用しているが、まだまだこれからというフェーズ。 使うのが当たり前という状態になるよう、これからも働きかけていきたい。

Continue reading »


Mishima.syk 13th

Written by Hidemasa Bono in misc on 日 10 2月 2019.

Mishima.syk#13

8ヶ月ぶりに開催されたMishima.sykは今回13回目。 もうすぐ、三島に来て丸5年ということは、この勉強会も約6年やっているということになる。

今回は、知り合いの研究者が関東から遠征してきて研究紹介をしてくれたり、ハンズオンも密度が濃かったということもあって、あっという間に昼の部が終わってしまった感じであった。

自分は、昨日のエントリでも書いたが、勉強会当日(2019年2月9日)に「生命科学データ解析を支える情報技術」(以下、IT4BDA)が発売開始。 図ったかのようだが、実に偶然の一致。 そういうご縁もあって、「エンジニアのための生命科学入門本ができるまで」と題したLightning Talkとして、紹介させていただいた。 IT4BDAを書いた

  • Why?
  • How?
  • For whom?

が新しい情報として上記リンクから公開してあるGitPitchによるプレゼンにも書かれているので、参考まで。

夜の部は、いつも通り素晴らしくオーガナイズされてて、いろんなネタでお話しができて盛り上がったように思う。 ただ今回は、比較的新規参加者が多かったと思うのだが、あまりお話しできなかったのが残念。

Continue reading »


Plan S

Written by Hidemasa Bono in misc on 金 08 2月 2019.

Plan Sとは

論文を出すことを日常的にしている研究者にとって非常に関わりが深いことなのに、ほとんど知られてないので、ここで取り上げる。 下手な解説を私がするよりも、以下のブログエントリに明快にまとめられているので、そちらを。

解説記事「Plan S:原則と運用」を書きました

ただ、J-STAGEの方は「paywallの中(購読料を払わないと読めない)」。オープンアクセスに関することを書いた総説がオープンアクセスでないという皮肉な状況。 しかしながら、九州大学附属図書館のレポジトリに著者自らが登録されているため、全文読める。本当、ありがとうございます。ありがたくこうやって拡散させていただきます。

図書館情報学系の集まりに顔を出さなかったら、私も知らなかったとは思うものの。 今後イヤでも聞くことになるはずなので、早めに知っておいて損はないかと。

Continue reading »


HISAT2 Samtools workflow

Written by Hidemasa Bono in misc on 土 02 2月 2019.

HISAT2→Samtoolsなワークフロー

以前書いたブログエントリなどを現状に合わせて見直して再掲載シリーズ。

HISAT2でreference genomeにmappingして、genomeに対するアラインメントを得る場合。 HISAT2のウェブサイトにすでにindexずみのそれがある場合はしなくていいが、まずはindex作成。 hisat2-buildコマンドにて。 reference genome sequenceがhogenome.fa、作成するindexの名前をhogeとすると、

1
2
3
4
#!/bin/sh

# HISAT2を使うためのindex作成
hisat2-build -p 12 hogenome.fa hoge

これはコア数が12あるMacProで動かした例(以下全て同じ)で、そこは環境に合わせて。 そして、実際のmapping。

1
2
3
4
#!/bin/sh

# HISAT2の実行
hisat2 -p 12 -x hoge -1 …

Continue reading »


CIBEX data reloaded to GEA

Written by Hidemasa Bono in misc on 金 01 2月 2019.

かつてCIBEXに登録したデータがGEAで復活

かつてCIBEXという遺伝子発現データベースがあった。 日本での遺伝子発現データベースということで、自分が所属していた研究チームもそこにマイクロアレイによる遺伝子発現データを登録したこともあった(doi:10.1371/journal.pgen.1001019)。

しかしながら、CIBEXは続かなかった。 データ受け付けを停止し、かつてはあったウェブサイトもなくなり、それまで受け付けて来たデータがダウンロードできるだけ、となった。


そして時代は下り、塩基配列解読技術が劇的に進化し、配列解読で遺伝子発現を測定する方法がメジャーとなった。いわゆるRNA-seqである。 塩基配列解読をするため、生データとしてはSequence Read Archive (SRA)に登録すればデータの再現性は担保される。 しかしながら、実際には発現定量したデータも一緒に登録されていなければならない。 そのため、NCBIのGene Expression Omnibus (GEO)やEBIのArrayExpressといった遺伝子発現データベースにそれらの定量データが登録されてきた。

DDBJはDDBJ Sequence Read ArchiveとしてSRAの登録も受け付けているので、配列データを登録した延長上で発現定量データも登録できると便利だということで、2018年にGenomic Expression Archive (GEA)がDDBJの遺伝子発現データのアーカイブとして立ち上がった。

ここで話がCIBEXに戻る。 かつて我々がCIBEXに登録したデータ …

Continue reading »


pre Trinity

Written by Hidemasa Bono in misc on 月 28 1月 2019.

Trinity前処理

以前書いたブログエントリを現状に合わせて見直して再掲載シリーズ。 リンク先にあるスクリプトがちゃんと動かないので、動くように書き直した。

遠隔作業が可能なので、時間のかかる処理を仕込みつつ。 fastq-dumpでヘッダを変えたFASTQでは、Trim Galore!(cutadapt)によるトリミングが失敗するようなので、仕方がなくTrinity(当時v2.5.1だったが、2019年1月に再度v2.8.3になったので試したが、変わらず)が実行できるようなヘッダに書き換える以下のようなフィルタ(for_trinity.pl)を書いて処理。ペアエンドのみの対応。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
#!/usr …

Continue reading »


blastdbcmd2019

Written by Hidemasa Bono in misc on 日 27 1月 2019.

localBLASTのblastdbcmdを使って配列エントリの特定の領域を取得する

以前書いたブログエントリを現状に合わせて見直して再掲載シリーズ、blastdbcmd版。

新規なモデル生物では、ゲノム配列が公開されていても多くの場合染色体ごとに配列が一本につながっていない。 どうなっているかというと、scaffoldという単位でゲノム断片配列が記述されている。

そういった場合でも、コマンドラインで使用する際のNCBI BLASTをローカルにインストールした際に一緒にインストールされるmakeblastdbというプログラムを使ってインデックスを作成、同じくインストールされているblastdbcmdを使ってエントリ名(-entry)と領域(-range)を指定することで、その領域の塩基配列を取得することが可能である。

makeblastdb -in hoge.fa -dbtype nucl -hash_index -parse_seqids
blastdbcmd -db hoge.fa -entry scaffold001 -range 2000-2500

このコマンドでは、一行目でhoge.faファイル(FASTA形式)に対してインデックスを作成、二行目でscaffold001の2000塩基から2500塩基までの配列を抽出する例を示している。 通常のmakeblastdbのオプションに加えて …

Continue reading »


BLAT

Written by Hidemasa Bono in misc on 土 26 1月 2019.

ぶらっとBLAT

以前書いたブログエントリを現状に合わせて見直して再掲載シリーズ、BLAT版。

BLATはThe BLAST Like Alignment Toolというツールで、UCSC Genome Browser のサイトにあるリファレンスゲノム配列に特化した配列類似性というか配列マッピングツールである。 ゲノム配列中のどこかに着地するという意味を込めて、ゲノムランディングツールとも呼ばれる。 そういうわけで便利なのだが、商用利用にはライセンスが必要なためか、広まっていない。 そういうツールだからHomebrewにはまさか入っていないだろう、と。 ぶらっと

brew install -v blat

してみたら、インストールが始まった…。 なんと、Biocondaにもあるようだ。

conda install blat

商用でなければアカデミア、非商用、個人利用はライセンスいらない模様。 ちなみに

blat refgenome.fa query.fa output.psl

という感じで使い、出力はPSL形式でoutput.psl …

Continue reading »


Make GEA Searchable from AOE

Written by Hidemasa Bono in misc on 金 25 1月 2019.

GEAをAOEから検索可能に

前にも触れた遺伝子発現データのアーカイブ、Genomic Expression Archive (GEA)であるが、公開データも出てきている。

それらのデータはEBIのOmicsDIからもいずれ検索可能になるらしいが、先回りしてAOEからできるように2019年1月のSPARQLthon76(DBCLSで月1回やっている統合DB関連のミニハッカソン)の自分の課題として取り組んだ。

基本的にArrayExpressと同じフォーマットのデータがGEAから公開されているということでArrayExpressと同様にparseしたものの。 やはりメタデータの記述が若干異なっているようで、全く同じにとはいかず。 一部手動で書き換えてなんとか検索可能に。 簡単にいうと、Last updateが取れなくなっていて、これが致命的エラーに。 よく見るとCommentに書かれているようで、そこからデータを取るように変更する必要あり。 Bioprojectに関しても同様。 先方と相談して直してもらうか、こちらで対処するか決めて、先に進めていこう。

それ以外のindex更新スクリプトも細々としたところを直して、GitHubにpushするなども。 より検索に引っかかるエントリを増やすため、更新ワークフローの延伸にも取り組んでいかねば。

Continue reading »


sequenceserver2019

Written by Hidemasa Bono in misc on 木 24 1月 2019.

sequenceserver

需要あるので、以前書いたブログエントリを現状に合わせて見直して再掲載。

BioHackathon2015で参加者たちがそれぞれに持ってきた研究紹介のパンフレットを見ていて発見したのが、このsequenceserver。 何の事はない、Ruby製のlocalBLASTのGUIなinterfaceなのだが、これがinteractiveに複数BLASTをかけてそのalignmentの結果をチェックしたい時になかなか便利。

便利だと思っている点をまとめると

  • queryに対してDB中の配列がどのあたりにヒットしたかという、かつてのpaintBLAST的なアラインメントのイメージがトップに出る
  • queryをコピペしたら塩基配列かアミノ酸配列か自動判別してくれる
  • 検索対象のDBが塩基配列系とアミノ酸配列系でリストされ、チェックボックスで選べる
  • 足したいパラメータを追加で指定できる

といったところ。 繰り返して使う時に再度1から設定しないといけない点の少なさがとても良いかと。

BLASTをHomebrewやBiocondaで入れてある前提で、 インストールは、以下のとおり、gem installで。

sudo gem install sequenceserver

だが、これがかなり時間がかかるので、

sudo gem install -V sequenceserver

にしてverboseモードにしたほうが精神衛生上よいかと。インストールできたら

sequenceserver

でサーバー起動、ウェブブラウザも起動して …

Continue reading »


Genomic Expression Archive debut

Written by Hidemasa Bono in misc on 金 18 1月 2019.

Genomic Expression Archive (GEA) に登録してみた

DDBJがメンテナンスから戻ってきた。 メンテナンスの前に投げてあった遺伝子発現データのアーカイブ、Genomic Expression Archive (GEA)から正式にアクセッション番号が発行されて戻ってきた。

これまでSequence Read Archive (SRA; DDBJではDRAともいうが)にすでに登録しているのであれば、それほど大変な手続きではない。 すでに登録したDRAの番号を入れれば、多くの情報が自動でGEAに書いてもらえるし、ヒトやマウスなどメジャーな実験動物をやっている場合は特に手間は少ないかと。 メタデータもSRAよりはサンプルやRNAの抽出方法など少々詳しく書かないといけないところはあるものの、それほど大変な分量ではなかった。

発現定量値のファイルフォーマットも特に決まっているわけでないようだし。 ここの定量結果を別々のファイルにしてもいいし、それらをまとめてexpression matrixにしてもいいし。 ただ、それらのファイルのMD5をメタデータとしてカラム中にそれを書いて登録しないといけないというのはさすがに気がつかなかったが。

SRAに配列は登録したものの …

Continue reading »


MacMini 2018

Written by Hidemasa Bono in misc on 日 13 1月 2019.

ぼうのブログ引越し

新しく買ったMacMini2018にサーバー移行作業。

hoge

基本、

  • 「画面共有」をオン
  • 「リモートログイン」をオン

にして手元のマシンから。 ブログコンテンツの引越しがメイン。 やったことは以下のような感じ。

SSHの設定

リモートログイン(ssh)を手軽に使うために、公開認証鍵を作成。

# ssh-keygenの実行
ssh-keygen -t rsa -b 4096

ホームディレクトリ以下の.sshディレクトリに出来たid_rsa.pubファイルの中身を、リモートマシンのホームディレクトリ以下の.sshディレクトリにあるauthorized_keysというファイルに書き込む。 そのファイルがなければ作成する。 すでにそのファイルがあれば、追記(1行1エントリ)。 その際気をつけるのが、そのファイルは自分しか見えないようにパーミッションを変更すること。

# chmod でauthorized_keysファイルのパーミッション変更
chmod 600 ~/.ssh/authorized_keys

ウェブサーバーを自動起動に

Apacheは最初からインストールされているので、 システムの起動と同時に自動でそうなるように。

# apacheを自動起動するように
sudo launchctl …

Continue reading »


PLOS ONE described in "Houston, we have a narrative"

Written by Hidemasa Bono in misc on 木 03 1月 2019.

PLOS ONE

昨日のエントリで紹介した本「なぜ科学はストーリーを必要としているのか」のp266には、馴染みの深い論文誌PLOS ONEに関しても言及されている。

プロスワンの編集者たちの基本理念は、掲載論文を「研究の意義(significance)よりも健全・安定性(soundness)」に基づいて受理するというものだ。

その後にある程度はうまくいっている、という研究者のコメントが続いている。「重要性」に基づいて採用されるNature, Scienceとの対比で。

出す側としては意義があると思って出しているんだけどね…。

Continue reading »


Houston, we have a narrative

Written by Hidemasa Bono in misc on 水 02 1月 2019.

なぜ科学はストーリーを必要としているのか

2018/11/10-11/14に参加したアメリカ昆虫学会の年会。 そのkeynote speech speaker、Randy Olsonさんの著作、やっと完読。

研究者は学会発表のための抄録をはじめとして文章を頻繁に書き、読む人に自分の発見や考えを伝える必要がある。 それらの書き方は場数を踏んで自然と身につけてきている。 現在では、論文に関してはIntroduction,Method,Result and Discussion (IMRAD)という文章構成がほぼ使われるようになっている。 しかし、事実だけを列挙する文章や、否定語で流れを振り回す文章が散見されるのが実態で、その専門家であるおかげでなんとか言いたいことが伝わっているのが現状であろう。 そこで、And-But-Thereforeで文章を組み立て、「ストーリー」を作るABTが本書で提唱され、それを中心とした詳細が説かれている。 単純な私は早速これに影響されて、日常的な書き物をはじめとしてこのぼうのブログを書く際にも意識するようになっている。

ABTに関する記述だけかと思ったが、それは広く科学コミュニケーションに関する話題にまで波及していた。 ちょっと考えればその通りなのだが、科学者にとっては予算獲得にもかかわり、とても大事なことである。 また、「ストーリーを作る」ということに対する反論もバッチリ書かれていて、一読に値するかと。 日本語に翻訳をしていただき、ありがとうございました。

気になった部分をいくつか。

p297真ん中あたり

四六歳位なってからやるよりは …

Continue reading »


Plan 2019

Written by Hidemasa Bono in misc on 火 01 1月 2019.

2019年の計

あけましておめでとうございます。本年もよろしくお願いします。 年頭恒例にしているその年の計。「2019年、かくありたい」

  1. 公共遺伝子発現DB目次の論文化
  2. プレプリント(BioRxiv)にアップした公共DBのメタ解析研究のデータ更新、そして査読論文化
  3. それらを利用した研究を各方面で進め、グラントを獲得できるように
  4. さらにSNSに割く時間を減らし、情報発信を英語と日本語の両方で

Continue reading »


Review 2018

Written by Hidemasa Bono in misc on 月 31 12月 2018.

2018年を振り返って

年頭に書いた「2018年、かくありたい」に沿って、2018年の活動を振り返ってみたい。

引き続き、ずっと取り組んでいるメインの仕事、公共DBの全レコードを対象としたデータ解析研究に力を注ぎ、懸案の仕事を論文化したい。

公共DBのメタ解析に関しては長年やってきたことをbioRxivにプレプリントとして2月にアップできた。

さらに関西医科大学 広田喜一さんとの共同研究の論文も1本プレプリントにアップされている。

  • In renal cell carcinoma, cancerous phenotypes linked to hypoxia-inducible factors are insensitive to the volatile anesthetic isoflurane https://doi.org/10.1101/375311

それ以外にも …

Continue reading »


Nights in hotels 2018

Written by Hidemasa Bono in misc on 金 28 12月 2018.

2018年出張外泊数

三島勤務になって以来、ここ5年数えて来た「仕事で外泊」した日数。2018年の日数が確定。

その結果、2018年は83泊で昨年より6泊増えて、さらに悪化。

泊数
2017 77
2016 77
2015 65
2014 50

今年も努めて抑制するようにして来たのだが、逆に増加してしまったという結果。

Continue reading »


NARO RCAIT

Written by Hidemasa Bono in misc on 木 27 12月 2018.

農研機構 農業情報研究センター

農研機構に2018年10月にできたばかりの農業情報研究センターを訪問。 内閣府や内閣総理大臣官邸が眼の前という凄い立地。

「NBDC/DBCLSにおけるデータベース統合化とその活用事例」と題した講演を1時間半ほどさせていただく。 まだ先方specificに何もしていないのだが、統合TVに対する感謝の言葉をいただくなど。 それ以外にも積極的な質問やコメントを数多くいただき。 今後に乞うご期待。

Continue reading »


Bioinformatics primer book edited by Prof. Toh

Written by Hidemasa Bono in misc on 日 23 12月 2018.

よくわかるバイオインフォマティクス入門

関西学院大学の藤博幸先生編集による「よくわかるバイオインフォマティクス入門」を買った。 藤先生自身は分担執筆されていないようだが…。

というのは、11章を同僚が担当し、「データベース」について書いており、その中身に興味があったから。 これは直接的な理由で、1章「配列解析」に関してどういったアプローチでその話を始められているかにも興味があり、岩部先生さすがだなと。

また、5章「NGSデータ概論」と7章「トランスクリプトーム解析」は、かつて理研時代の同僚でもある東大の門田幸二先生が書かれており、素晴らしい仕上がり。今後のリファレンスとして重宝するのは間違いなかろう。

さらに、自分が手薄な分野に関して、その道の専門家がきっちりとした内容で書かれているので、そこもしっかりと読ませてもらって勉強したい。

見た目にしても、中身に関しても、Dr.Bonoの生命科学データ解析(Bono本)とは毛色の違う構成になっており、こちらの方がよりadvancedな(踏み込んだ)、専門的な内容となっている。 6章「ゲノム解析」の参考文献にかつて監訳した「ゲノミクス」が挙げられていたり。 蛇足だが、多くの章で次世代シークエンサーDRY解析教本(DRY本) が参考文献として挙げていただいていたのは嬉しかった …

Continue reading »


Bonen2018

Written by Hidemasa Bono in misc on 水 19 12月 2018.

2018年忘年会

早いもので、忘年会が行われれる、もうそんな季節に。 隣のセンターの長の交代や統合牧場第三のチルドレンの加入など、2018年に起きたさまざまな変化を振り返り、今後どうしていくべきか、考えさせられるいい機会であった。 来年2019年は攻めに出ないといけないかもしれない。

Continue reading »


BioHackathon2018 hackathon day6

Written by Hidemasa Bono in misc on 土 15 12月 2018.

Biohack18 6日目

午前は今回やったことをdocumentathon。

個人的にはAOE関係でやろうと思っていたことが他のプロジェクトとの兼ね合いで進めれなかったものの、CWLで書くことを教わるということで別の形で自分のプロジェクトを進めることができた。 また、oec014さんが主に進めてくれたCellFishing.jlの件も、これまでスタックしていた案件が今後につながる形で再起動できた感。 終わってみれば、これまでにないレベルでやりがいのある、かつとても実りのあるBioHackathonだった。 教えていただいた側にとっても適用事例の1つとして認識してもらったようで、お互いにとって良かったなと。 これこそがBioHackathonの醍醐味なのだろう。

そして、片付け。みんなでやれば早く終わるという当然の理。

最後は、山陰ひとり旅。

Continue reading »



BioHackathon2018 hackathon day4

Written by Hidemasa Bono in misc on 木 13 12月 2018.

Biohack18 4日目

AOEのCWL化に取り組む(CWLizationと呼んでる)。 CommandLineToolを2つ組み合わせて、1つのWorkFlowとした単純なものから。

色々なトラップがあったものの、プロフェッショナルの多大なる助言をいただいて、動くようになった。 GitHubにアップロードしてあるので、自動的に可視化できた

そして、いくつかのWorkflowを見直し、同じようなことをしているスクリプトに関して引数を変えるだけで動くように。 今回のCWLizationは、見直しするいい機会になっている。

Continue reading »


BioHackathon2018 hackathon day3

Written by Hidemasa Bono in misc on 水 12 12月 2018.

Biohack18 3日目

ようやく、Common Workflow Language(CWL)でAOEのindex作成ワークフローを書いてみる。 ネットワークづたいにデータを取ってくるからか、cwlファイルはvalidであっても、コケる。

発現類似性検索プロジェクトの方も、テストデータに対しては動くが、自分でloom形式のファイルを作ってやるとエラーでコケる。 うまくいかないもんだな。

しかし、かつて統合TV黎明期に動画を作成して多大な貢献をしてくれた方と再会。 そのかたが作ってくれた「パワーポイントの図形描画機能でイラストをつくる方法」は直近の1年において統合TVの動画再生数ランキング2位というスーパーコンテンツ。 もう7年も前のコンテンツなのに。 人との繋がり、そして継続してやることの大事さを再確認した次第。 その功績を讃え、手持ちの統合TV本こと、「生命科学データベース・ウェブツール 図解と動画で使い方がわかる!研究がはかどる定番18選」にサインして献本するなど。

いやしかし。初日にT先生が言っていたことと見事にかぶったな…。

Continuation is power

Continue reading »


BioHackathon2018 hackathon day2

Written by Hidemasa Bono in misc on 火 11 12月 2018.

Biohack18 2日目

Common Workflow Language(CWL)でAOEのindex作成ワークフローを書き直したいとふと思って、取り組む。 cwltoolが入らず。typingが入らないというエラーだったため、一度消去した上でpipで入れ直したり。 テストコードは動くようになったので、いよいよ本格的に、というところでタイムアップ。

裏で、AOEの更新のためのArrayExpressデータのmirrorスクリプト改変。GEOのデータはもう更新されないだろうから、そこをskipするように。

Continue reading »


BioHackathon2018 hackathon day1

Written by Hidemasa Bono in misc on 月 10 12月 2018.

Biohack18 1日目

会場は引き続き、松江のホテル、バイオハッカソン開始。 AOE周りのやるべき項目をまず、リストアップ。 SRAのRNA-seq取り込み周りは、他との兼ね合いで後回しに。

そこで、CellFishingを手元のマシンに入れ直そうとするが、エラーが出て入らず…。 しょうがないので、研究室のマシンでやることにする。

AOEのAPIに関しても訊かれたので、それもやらねば、というところ。

Continue reading »


BioHackathon2018 symposium

Written by Hidemasa Bono in misc on 日 09 12月 2018.

Biohackathon2018 シンポジウム

今年は松江で開催のBiohackthon。 しかし電車が人身事後で3時間ほど遅延して、大遅刻。 YouTube Live発信でネット参加しつつ、午後からシンポジウム会場へ。 自分の発表は午後からで間に合った。 発表は去年に引き続き、Lightning talkの5分間でAOE周りを紹介。

Continue reading »


A cure within

Written by Hidemasa Bono in misc on 金 07 12月 2018.

がん免疫療法の誕生 科学者25人の物語

ふとしたキッカケから、「がん免疫療法の誕生 科学者25人の物語」を献本いただいた。

この本を翻訳するかどうか、という時に出版社から相談を受けて意見したということなのだが、その時はまだ本庶佑先生がノーベル賞を取られる前。 だが、がん免疫療法に関する業界の注目度は高く、検討されているのなら翻訳されたらいいのでは、と軽い気持ちで意見したのが約8ヶ月前。 だが、現在の事態を予測できていたわけでは決してない。

10月頭の今年のノーベル生理学医学賞の発表を受け、急いで本を出されたのだろう。 その脚力には、(統合TV本に関してもだが)本当恐れ入る。 本を受け取ったばかりで、まだまえがきぐらいしか読んでないので、一通り読んだら読書感想文をここにアップしたい。

そして本日(2018年12月7日)は、授賞式当日。 本庶先生、おめでとうございます!! 日本で研究している生命科学研究者として、誇りに思います。

Continue reading »


Impression on 41st annual meeting of the molecular biological society of Japan

Written by Hidemasa Bono in misc on 土 01 12月 2018.

第41回日本分子生物学会年会を終えて

今年も日本分子生物学会年会(分生)が終わった。

例年通り、NBDC/DBCLSはブース出展、今年も日本で生命科学分野のDBをやっている関係各所が一堂に会するBioDBコーナーの一部で展示会/ポスター会場の一角にて。 データ解析よろず相談待機をしていたが、いる時にはほぼ相談もなく。

また今年もワークショップ(2PW1-15 いかにして公共データベースを生命科学研究に活用するか? )のオーガナイザーを務めた。2日目の午後の時間帯で、 昨日のエントリにも書いた通り、予想をはるかに上回る参加者に参加いただいた。 関心が高まっているのか、それとも年会が関東開催で、開催した時間帯も良かったせいなのか。 それはわからないが、とにかくたくさんの人に公共データベースを活用することに関して話を聞いてもらえたのは、純粋にとてもよかったと。

調べてみると、2009年の第32回日本分子生物学会年会にて中村保一さんと共に初めてワークショップ「ウェット研究者が情報技術的に自立するために:統合データベースプロジェクトからの提案」をオーガナイズしてから、毎年ワークショップを提案してきた。 それももう10年ほど続けていることになる。 もちろん採用されなかった年もあるが。

しかし、いつまでもだらだらと続けるのもよろしくないし、有志で企画してきた統合DB関係ワークショップは一度止めてみようかと。 誤解があるといけないので蛇足ながら書き加えると、統合DB関係のワークショップがまったく無くなるのではない。 バイオサイエンスデータベースセンター(NBDC)が企画するワークショップが開催されるようになってきたので、来年以降は自分は企画しない、単にそれだけである。 今後は …

Continue reading »


41st annual meeting of the molecular biological society of Japan day3

Written by Hidemasa Bono in misc on 金 30 11月 2018.

第41回日本分子生物学会年会3日目

本日11月30日(金)で、最終日の3日目。

昨日はオーガナイズしたワークショップ、2PW1-15 いかにして公共データベースを生命科学研究に活用するか? が行われた。 これまでになく多くの方に参加いただいた。 その証拠に、パンフレットは200部用意してもらったが、始まる前にそれはなくなり、50部追加してもらったが、それも全部はけた。 つまり250人以上は来ていた、ということで、公共データベース利活用への関心の高まりを再確認。

日本で生命科学分野のDBをやっている関係各所が一堂に会するBioDBコーナーにてNBDC/DBCLSもブース出展しており、これも今日まで。 提供しているサービスの紹介とデモのほか、データ解析よろず相談をやっており、今日も基本その近くで待機する予定。

また、監修した本「生命科学データベース・ウェブツール 図解と動画で使い方がわかる!研究がはかどる定番18選」の先行発売も本日午後3時半まで。 ここを見たといえば、買った本にサインしますので。

Continue reading »


41st annual meeting of the molecular biological society of Japan day2

Written by Hidemasa Bono in misc on 木 29 11月 2018.

第41回日本分子生物学会年会2日目

本日11月29日(木)、2日目。

今年も日本で生命科学分野のDBをやっている関係各所が一堂に会するBioDBコーナーを展示会/ポスター会場の一角にてやっており、NBDC/DBCLSもブース出展しております。 提供しているサービスの紹介とデモのほか、データ解析よろず相談をやっており、今日も基本その近くで待機しているかと。

ただ本日は、DBCLSニュースにも出していただいたように、15:45-17:15に第15会場(5階 501)にて、2PW1-15 いかにして公共データベースを生命科学研究に活用するか? と題したワークショップのオーガナイザーを務めます。その概要は以下の通り。

オープンデータ、オープンサイエンスの潮流の中、生命科学研究における公共データベース(DB)は自らのデータを発表する場所としての役割も担うようになってきており、それらをいかに活用するかが研究をうまく進める鍵になってきている。そこで、どのように有用なDBを利用・維持していけばよいのかを実際にうまく利用している研究者やデータベースの運用に関わる研究者を交えて議論する場としたい。

監修した本「生命科学データベース・ウェブツール 図解と動画で使い方がわかる!研究がはかどる定番18選」が先行発売中。 ここを見たといえば、買った本にサインしますので、気軽にお申し付けください。

Continue reading »


41st annual meeting of the molecular biological society of Japan day1

Written by Hidemasa Bono in misc on 水 28 11月 2018.

第41回日本分子生物学会年会1日目

本日2018年11月28日より、今年の日本分子生物学会年会(分生)。 そして、自らの執筆し、監修した本「生命科学データベース・ウェブツール 図解と動画で使い方がわかる!研究がはかどる定番18選」が先行発売、そして今日の12:00-13:00にサイン会が展示場 書籍売場 [B06] メディカル・サイエンス・インターナショナル(MEDSi)の書籍ブース行われます。

午後のポスター時間帯は、ディスカッサーというポスター発表を盛り上げるボランティアとしてポスター会場にいるのではないかと。

そして、それ以外の時間帯は、NBDC/DBCLSの出展ブースに。 日本で生命科学分野のDBをやっている関係各所が一堂に会するBioDBコーナーが展示会/ポスター会場の一角にて、今年も特別企画としてあるのだ。 提供しているサービスの紹介とデモのほか、データ解析よろず相談をやってますので、参加される方はぜひお立ち寄りを。 ただ、当方人見知りなので初対面の方には素っ気ないかもしれませんが、何卒ご容赦のほどを。

Continue reading »


41st annual meeting of the molecular biological society of Japan

Written by Hidemasa Bono in misc on 火 27 11月 2018.

第41回日本分子生物学会年会0日目

いよいよ今年の日本分子生物学会年会(分生)が明日2018年11月28日から。

例年通り、NBDC/DBCLSはブース出展、今年も日本で生命科学分野のDBをやっている関係各所が一堂に会するBioDBコーナーの一部で展示会/ポスター会場の一角にて。 提供しているサービスの紹介とデモのほか、データ解析よろず相談をやっており、年会中は基本そこに居るはず。

また、年会会場にても、DBCLSニュースにも出していただいたように、2日目の11月29日(木) 15:45-17:15に第15会場(5階 501)にて、2PW1-15 いかにして公共データベースを生命科学研究に活用するか? と題したワークショップのオーガナイザーを務めます。その概要は以下の通り。

オープンデータ、オープンサイエンスの潮流の中、生命科学研究における公共データベース(DB)は自らのデータを発表する場所としての役割も担うようになってきており、それらをいかに活用するかが研究をうまく進める鍵になってきている。そこで、どのように有用なDBを利用・維持していけばよいのかを実際にうまく利用している研究者やデータベースの運用に関わる研究者を交えて議論する場としたい。

参加される方はぜひお目にかかりましょう。 ただ、当方人見知りなので初対面の方には素っ気ないかもしれませんが、何卒ご容赦のほどを。

あと、私事ですが、監修した本「生命科学データベース・ウェブツール …

Continue reading »