AOE layer the 3rd

Written by Hidemasa Bono in misc on 金 12 4月 2019.

AOEの外堀

SRAにRNA-seqとして登録されているものの、NCBI Gene Expression Omnibus(GEO)やEBI ArrayExpress(AE)といったいわゆる遺伝子発現データベースに登録されていないデータを抽出してAOEに突っ込んだ。 DDBJ Genomic Expression Archive(GEA)は先月末の作業で取り込まれるようにしたが、今回さらに懸案だったのを対処した形。 お堀に例えるなら、AEとGEA分が内堀、GEOで中堀ときて、SRAにあるRNA-Seqデータを取り込んで、外堀を埋めた感じである

全く僅かな数ではなく、Seriesカウントで約一万ちょいある。 これらのデータは一体なんなのか。 実はdbGaPやEGAに入っているエントリでメタデータだけあるだけなののか、それとも…。 個別のエントリをガッツリみていかないとわからないが、取りこぼしはこれでないい言うレベルまできた感。

裁きの日は近い。

Continue reading »


4 years have passed

Written by Hidemasa Bono in misc on 水 03 4月 2019.

あれから4年

前職で採用面接から立会い、プログラミングもできる分子生物学研究者(彼はスイッチヒッターと言っていた)として一緒に研究してきた彼が亡くなってから今日で丸4年。 今日4月3日は彼の命日。

それ以前は、癌学会学術集会では夜一緒に行動していたから、学会の夜をどう過ごすかが課題に。 それも新しい知り合いのおかげで、徐々に立ち直ってきた感じ。 今年は話に呼んでいただいて、早々に参加することが決まったし。

今年も年頭にまた三島で知り合った同志を癌でなくしてしまった。 お互い分かり合えたよい飲み友達だったんだけど。。 その都度、生きるとはどういうことか、考えさせられる。 彼にも教えてもらったように、命ある限り、楽しんで生きていく。 でも、楽しみ方は人それぞれ。 価値観の押し付けはやめてね。

Til we die I'll be loving you dear

Continue reading »


about

Written by Hidemasa Bono in about on 月 01 4月 2019.

本サイトに関して

本サイトにおいてGoogle社が提供するWebアクセス解析ツール(以下「Google アナリティクス」といいます。)を使用しています。 この際、アクセス情報がGoogleに収集される可能性があります。 Google アナリティクスでデータが収集、処理される仕組みについては、以下を参照してください。

ユーザが Google パートナーのサイトやアプリを使用する際の Google によるデータ使用 https://www.google.com/intl/ja/policies/privacy/partners/

Continue reading »


March2019

Written by Hidemasa Bono in misc on 土 30 3月 2019.

2019年3月を振り返って

月初めからつくばまで行って農研機構 生物機能利用研究推進会議で登壇するなど、1月と2月の合計6泊よりも多い宿泊回数7泊の3月だった。

さらに、月初の阪大医学部Python会の2人の春合宿や、月末のSPARQLthon78など、三島に人が来る機会も多くかなり忙しい月であった。

参加させていただいたAMED-GA4GH GEM Japan ワークショップ 2019 仙台など、人と協調して動く仕事はそれなりに進んだ。 しかしながら、その分自分自身がメインで進めるべき公共DBを使いこなした研究が比較的低調だったのが反省材料。 特に原著論文の執筆。 来月2019年4月は、年度も変わるし、引きこもって進めたい。

Continue reading »


odokon2019

Written by Hidemasa Bono in misc on 水 27 3月 2019.

日本応用動物昆虫学会大会2019@つくば

2019年3月25日〜27日まで、第63回日本応用動物昆虫学会大会がつくばで開かれ、25と26日に参加。 昨年は小集会の講師として参加し、今年はサテライト的な講習会の講師。 学会員でもないのに、結果として3年連続の参加となった。

今年は特にRNA-seq解析をやっている演題が目についた気がした。 そればかりか、それ関係のお問い合わせを廊下でお会いした知り合いから受けるなど。 RNA-seqデータ解析を日常的にやっているが故の色眼鏡なのか、それとも本当にそうなのか。

遺伝子発現定量の技術として自分が日常的に関わっている手法が、昆虫学においても応用されていることは非常に喜ばしいことだ。 自身の研究にうまく活用されんことを願ってやまない。

Continue reading »


AJACS insect special1

Written by Hidemasa Bono in misc on 日 24 3月 2019.

2019年応用動物昆虫学会大会連動企画 データ解析講習会

2019年3月25日〜27日まで、第63回日本応用動物昆虫学会大会がつくばで開かれる。 それに連動して、その前日の2019年3月24日にデータ解析講習会を柏の葉キャンパス駅前のDBCLS柏にてやろうということで会員の方に企画していただき、自分は講師を務めた。

2018年8月に行ったROIS-DS-JOINTの研究会「昆虫のゲノムデータベースとそれを活用したデータ解析 II」と連続して行った、AJACSa5柏をベースに内容を考えたが、結果として全く同じとは言えないほど変わってしまった。 いつものAJACSシリーズと同じGitHubに使ったテキストはアップしてあるので、参考まで。

シェルスクリプトの説明とかもっと饒舌気味に説明すべきだった、など色々と反省点はあるが、ちょっとは参考になったのであれば幸い。 あとちょっと、ちょっとの辛抱だ(意味深)。

Continue reading »


Kaiko no jikkentan

Written by Hidemasa Bono in misc on 土 16 3月 2019.

カイコの実験単

Amazonでは2019年3月22日発売予定のカイコの実験単。 この本の企画編集委員をされていた共同研究者よりご恵投いただく。 ありがとうございました。

この本の副題には「生物の授業やクラブ活動で使える実験集」とあり、難しい漢字にはふりがながふられていたり、中高校生向けに配慮されたやさしく書かれた内容である。

共同研究としてカイコの遺伝子配列解析には長年携わってきてはいるものの、生物としてのカイコに対してはまだまだ不勉強で、興味深く読み始めたところ。

p122の実験13「データベースを利用したカイコのもつ遺伝子の相同性検索と分子系統樹の作成」は普段自分自身が書くような内容で、そういった内容が本に収録されていることがとても興味深い。 コンピューターを使ったDRYな実験であり、カイコを飼わなくてもインターネットに繋がったコンピューターがあればすぐにできる。 また、発展的課題として統合TVが紹介されていて、大変嬉しく思った。

オールカラーで写真がふんだんに入っていてこの値段なのだから私などからすると大変お買い得な本ではないかと。

Continue reading »


IT for Biological Data Analysis in stapy 43rd

Written by Hidemasa Bono in misc on 水 13 3月 2019.

みんなのPython勉強会#43

前回、参加できなかったみんなのPython勉強会。 ここのところスケジュールの都合がつかず、2018年の秋からの新しい会場になってから長い間参加できなかった。

今回は、スケジュールが合ったので、久しぶりに参加。 新しい会場もだが、内容的にもPyLadiesとのコラボmeet upということで、フレッシュな話を聞くことができた。 プレゼン術にしても、対象としている内容についても、自分の凝り固まったそれとは違うものであり、新鮮だった。

まーやさんのお話「PyLadies Tokyo About Us 〜ふんわりコミュニティ論〜」で、PyLadies Okinawaの立ち上げの話を聞いた。 そこで、バイオインフォマティクスなご当地の知り合いに聞いてみたところ、なんとオーガナイザーだとか。 ギョウカイの狭さを勉強会に来てまで思い知るなど。

また、LightningTalkで自ら「生命科学データ解析を支える情報技術」を紹介してきた。 研究会のウェブサイトからもリンクしておいたが、ここにもそのプレゼンを貼っておく。

stapyがきっかけになって出版されることになった本、ということで。 そういった本が他のいろんな分野で続けばいいなと期待。

Continue reading »


drbonobon 4th print

Written by Hidemasa Bono in drbonobon on 月 11 3月 2019.

Dr.Bonoの生命科学データ解析第4刷

今月(2019年3月)で、Dr.Bonoの生命科学データ解析(Bono本)上梓から1年半あまりとなった。 そんな今日、第4刷をするという連絡が出版社からきた。

ここのところ、Amazonの「生命科学」カテゴリーでも上位に食い込んでおり、ひょっとしたら教科書と指定されて事前に買っていただいているのかな、と思ったり。

内容としてはぼうのブログなどに言及があったネタがほとんどであるが、ブログとは違ってその後の情報を加えてアップデートされ、他のエントリとの関連も数多く述べられてまとめられているのがこの本である。 すなわち、現時点で考えられる知識の体系化を行なっていることで、それは成書ならではの産物だと最近切に思う。

Continue reading »


IT for Biological Data Analysis 1month

Written by Hidemasa Bono in IT4BDA on 土 09 3月 2019.

生命科学データ解析を支える情報技術 発売一ヶ月

2019年2月9日に「生命科学データ解析を支える情報技術」(以下、IT4BDA)が発売されてから一ヶ月が経った。 これまでの本同様、amazonの「生命科学」や「バイオテクノロジー」カテゴリーでのランキングを見る限り、好調の模様。

ただ、今まで本が置いてあるのを目撃した本屋での陳列が、コンピューターコーナーでなくて、医学書コーナーなのが気になっている。 エンジニアさん向けに生命科学データ解析を紹介する入門書なんだから医学書コーナーでなく、コンピューターコーナーに置いていただきたいのだが。

Continue reading »


RNA-seq data analysis in-turn

Written by Hidemasa Bono in misc on 金 08 3月 2019.

阪大医Python会春合宿@三島

阪大医Python会の優秀なる2人の医学部生が、春合宿と称して職場に来襲。 3/4-8までの5日間滞在。 その間、共同研究者も彼らの来襲に合わせて来訪して、その打ち合わせもあったり、DDBJミーティングなど、いくつかイベントがあったのだが。

RNA-seqデータ解析合宿、ということでリファレンスゲノムありのデータ解析も、なしのデータ解析も両方とも一通りやってもらった。 その様子は、かつての統合牧場を彷彿するありさまで、GitHubにログを残していってくれた。

かつて統合牧場では、はてなダイアリーにみんなログを残してくれていたのを思い出してたいへん懐かしかった。

富士山撮影

統合牧場の彼らがそうであったように、知識に貪欲で(美味い飯にも)、いろんなことに興味を持ってくれて、我々の方が却って活性化された感。

幅優先探索気味なのは、若さがゆえかな。 ものすごく最先端のことをよく知っている一方で、意外な知識が抜けてて驚くことも多数。 でも今なら、「Bono本のxxページに載っているよ」と返答できるのはいい時代になったな、と実感。

今後もこういう形式のインターンは学生さんの長期休暇を利用して受け入れられるといいな。 旅費などの金銭的な援助もなんらかの形で考えねばならないのが今後の課題。

Continue reading »


The Introductory Bayesian Statistics Course by High School Girl Ranko

Written by Hidemasa Bono in misc on 日 03 3月 2019.

女子高生乱子によるベイズ統計学入門講座: とある弁当屋の統計技師(データサイエンティスト) 3

かつて職場に大学院生RA(Research Assistant)が多数来てくれるきっかけとなった「Rによるテキストマイニング入門」を著された石田基広先生より「女子高生乱子によるベイズ統計学入門講座: とある弁当屋の統計技師(データサイエンティスト) 3 」をご恵投いただく。

ベントウさんシリーズ3作目。

もちろん今回も共立出版から、なのだが、もっと堅い出版社というイメージを払拭するかのような表紙で。 実際には表紙だけでなく、挿絵にも同じイラストレーターによる絵が内容とキッチリ連動しており、素晴らしい。

前作も前々作も楽しく読ませていただいたが、今回も非常に明快に実例でベイズ統計学入門が説かれていた。 Excel方眼紙に関して例示があり、どういう形でデータを入力すべきかが書かれていて、今後のリファレンスとしたい。 端々にtwitterで話題となっている昨今の大学事情が織り交ぜられており、大変楽しい。 それだけでなく、最近の学問的な流行りなども会話口調で登場人物によって語られており、個人的には知識の整理に有用だった。

次回作、期待してます! (生命科学データ解析とかw)

Continue reading »


NARO NIAS

Written by Hidemasa Bono in misc on 金 01 3月 2019.

農研機構 生物機能利用研究推進会議

農研機構の生物機能利用研究部門の会議に特別講演に呼ばれたので、つくばまで遠征。 「公共データベースを利用した知の巡りのより生命科学研究」と題して40分話させていただいた。 DBCLS/NBDCでやってきた通算13年の活動に関して、農研機構での活用を意識した形で紹介させていただいた。

私の話のあとには、農業情報研究センターのセンター長がお話しされた。 先駆的なearly adaptorは利用しているが、まだまだこれからというフェーズ。 使うのが当たり前という状態になるよう、これからも働きかけていきたい。

Continue reading »


IT for Biological Data Analysis in dennou

Written by Hidemasa Bono in IT4BDA on 水 20 2月 2019.

生命科学データ解析を支える情報技術の紹介記事

生命科学データ解析を支える情報技術」(以下、IT4BDA)が正式に発売されて早10日あまり。 かねてより用意してあった紹介文(拙作)が、技術評論社のサイトの新刊ピックアップに掲載された模様。 また、ほぼ同時に技術評論社の電脳会議 Vol.193にも同じ文章が組版された形で(p7)。

IT4BDAを紹介するのが大変やりやすくなった!

Continue reading »


Comparative analysis of seven types of superoxide dismutases for their ability to respond to oxidative stress in Bombyx mori

Written by Hidemasa Bono in papers on 火 19 2月 2019.

活性酸素を除去する新型酵素を昆虫から発見

東京農工大学大学院農学研究院生物生産科学部門 天竺桂弘子准教授を中心とした研究グループによる共同研究論文 “Comparative analysis of seven types of superoxide dismutases for their ability to respond to oxidative stress in Bombyx mori” が Scientific Reports に掲載された。

活性酸素を除去する酵素を、カイコガ(Bombyx mori)とタバコスズメガ(Manduca sexta)でタンパク質ドメイン検索して候補を選定、それを生物(ナマモノ)で様々な条件で発現を調べたという研究。 今回も主に、RNA-seqデータ解析とタンパク質ドメインの配列解析で共同研究に貢献した。 もちろん、それらのデータは公共DB(Sequence Read Archive)に登録され、再利用可能なようになっている。 今回のRNA-seqデータは、前回公開したRNA-seqデータの追加分なので、SRAのaccessionとしては別のID …

Continue reading »


IT for Biological Data Analysis 1week

Written by Hidemasa Bono in IT4BDA on 土 16 2月 2019.

生命科学データ解析を支える情報技術 発売一週間

2019年2月9日に「生命科学データ解析を支える情報技術」(以下、IT4BDA)が正式に発売され、流通するようになった。

数日前のエントリにも書かせてもらった通り、発売当日に偶然開催されたMishima.syk#13(第13回三島創薬勉強会)にて、「エンジニアのための生命科学入門本ができるまで」と題してLightning Talkさせていただいた。

また、自分は参加できなかったものの、ちょうどこの一週間の水曜日の夜に開催されたみんなのPython勉強会(stapy)#42の冒頭で、 当該勉強会(stapy)がきっかけになって出版されることになった本として紹介していただいたり。詳細は、数日前のエントリに。

これまでの本同様、amazonの「生命科学」や「バイオテクノロジー」カテゴリーでのランキングは時として一位を取ることもあったりと、好調の模様だが。

twitterのハッシュタグ #IT4BDAに寄せられた意見に「体系的に学べる」が目に付くが、果たしてそうだろうか。 体系的にまとめられないから、イントロダクションと環境構築以外はよく使われている要素技術を列挙しただけという構成となっているのだが。 批判的な内容も出てきてもおかしくないと思っているのだが、そういうのは表に出さないというものなのかな…。

Continue reading »


IT for Biological Data Analysis in stapy 42nd

Written by Hidemasa Bono in IT4BDA on 水 13 2月 2019.

みんなのPython勉強会#42で紹介

自分は参加できなかったのだが、「生命科学データ解析を支える情報技術」みんなのPython勉強会(stapy)#42の冒頭で紹介していただきました。 stapyがきっかけになって出版されることになった本、ということで。

紹介なう

会場に行けなくても、YouTube Liveで参加できる素晴らしい会となりました。

それにしても、twitterのハッシュタグは #IT4BDAだが、今までの本同様、私ばっかりが書いている感じ…。

Continue reading »


Mishima.syk 13th

Written by Hidemasa Bono in misc on 日 10 2月 2019.

Mishima.syk#13

8ヶ月ぶりに開催されたMishima.sykは今回13回目。 もうすぐ、三島に来て丸5年ということは、この勉強会も約6年やっているということになる。

今回は、知り合いの研究者が関東から遠征してきて研究紹介をしてくれたり、ハンズオンも密度が濃かったということもあって、あっという間に昼の部が終わってしまった感じであった。

自分は、昨日のエントリでも書いたが、勉強会当日(2019年2月9日)に「生命科学データ解析を支える情報技術」(以下、IT4BDA)が発売開始。 図ったかのようだが、実に偶然の一致。 そういうご縁もあって、「エンジニアのための生命科学入門本ができるまで」と題したLightning Talkとして、紹介させていただいた。 IT4BDAを書いた

  • Why?
  • How?
  • For whom?

が新しい情報として上記リンクから公開してあるGitPitchによるプレゼンにも書かれているので、参考まで。

夜の部は、いつも通り素晴らしくオーガナイズされてて、いろんなネタでお話しができて盛り上がったように思う。 ただ今回は、比較的新規参加者が多かったと思うのだが、あまりお話しできなかったのが残念。

Continue reading »


IT for Biological Data Analysis for sale

Written by Hidemasa Bono in IT4BDA on 土 09 2月 2019.

生命科学データ解析を支える情報技術 発売

本日(2019年2月9日)、「生命科学データ解析を支える情報技術」(以下、IT4BDA)発売。 調べてみたら、ちょうど2018年2月9日にIT4BDAを書くことになった(企画案として出していたのが承認された)らしい。

そしてさらに、今日は三島エリアでやっている有志の勉強会、Mishima.syk#13の開催日。 LTでIT4BDAを紹介させていただいた。 題して、「エンジニアのための生命科学入門本ができるまで」

左が紙媒体、右が電子媒体(Kindle)で、出版社のサイトからはPDF版やEPUB:リフロー版も用意されている。 自分の書いたものがKindle版やEPUB版の書籍となったのはこれが初めてなので、とても嬉しい!

Continue reading »


Plan S

Written by Hidemasa Bono in misc on 金 08 2月 2019.

Plan Sとは

論文を出すことを日常的にしている研究者にとって非常に関わりが深いことなのに、ほとんど知られてないので、ここで取り上げる。 下手な解説を私がするよりも、以下のブログエントリに明快にまとめられているので、そちらを。

解説記事「Plan S:原則と運用」を書きました

ただ、J-STAGEの方は「paywallの中(購読料を払わないと読めない)」。オープンアクセスに関することを書いた総説がオープンアクセスでないという皮肉な状況。 しかしながら、九州大学附属図書館のレポジトリに著者自らが登録されているため、全文読める。本当、ありがとうございます。ありがたくこうやって拡散させていただきます。

図書館情報学系の集まりに顔を出さなかったら、私も知らなかったとは思うものの。 今後イヤでも聞くことになるはずなので、早めに知っておいて損はないかと。

Continue reading »


IT for Biological Data Analysis Kindle version

Written by Hidemasa Bono in IT4BDA on 木 07 2月 2019.

生命科学データ解析を支える情報技術 Kindle版

Kidle版も2019年2月6日に予約発売開始になっていた。PDF版はこれまでも経験あるが、自分の著書がKindle化されたのは実は初めて。うれしい。

出張で受け取れていなかった実物も手元に届き、周りのお世話になった方々への献本を。 それ以外の宅配による献本もTwitterの反応を見るかぎり、順調にいっているようだ。

あとは発売日を待つのみ。

Continue reading »



IT for Biological Data Analysis for pre release

Written by Hidemasa Bono in IT4BDA on 月 04 2月 2019.

生命科学データ解析を支える情報技術 先行発売開始

立春の今日(2/4)、今週末土曜日(2/9)に発売予定の「生命科学データ解析を支える情報技術」(以下、IT4BDA)の先行発売が始まった(模様)。 当該書店さんのtweetを見ただけで、自分では売っているのを見たわけではないのだが。

IT4BDA 先行発売

また、技術評論社のウェブサイトが更新され、「電子化の予定があります」と。

なお、twitterのハッシュタグは #IT4BDAなので、tweetする際には是非ハッシュタグを、よろしく。

Continue reading »


HISAT2 Samtools workflow

Written by Hidemasa Bono in misc on 土 02 2月 2019.

HISAT2→Samtoolsなワークフロー

以前書いたブログエントリなどを現状に合わせて見直して再掲載シリーズ。

HISAT2でreference genomeにmappingして、genomeに対するアラインメントを得る場合。 HISAT2のウェブサイトにすでにindexずみのそれがある場合はしなくていいが、まずはindex作成。 hisat2-buildコマンドにて。 reference genome sequenceがhogenome.fa、作成するindexの名前をhogeとすると、

# HISAT2を使うためのindex作成
% hisat2-build -p 12 hogenome.fa hoge

これはコア数が12あるMacProで動かした例(以下全て同じ)で、そこは環境に合わせて。 そして、実際のmapping。

# HISAT2の実行
% hisat2 -p 12 -x hoge -1 fuga_1.fastq.gz -2 fuga_2.fastq.gz -S fuga.sam …

Continue reading »


CIBEX data reloaded to GEA

Written by Hidemasa Bono in misc on 金 01 2月 2019.

かつてCIBEXに登録したデータがGEAで復活

かつてCIBEXという遺伝子発現データベースがあった。 日本での遺伝子発現データベースということで、自分が所属していた研究チームもそこにマイクロアレイによる遺伝子発現データを登録したこともあった(doi:10.1371/journal.pgen.1001019)。

しかしながら、CIBEXは続かなかった。 データ受け付けを停止し、かつてはあったウェブサイトもなくなり、それまで受け付けて来たデータがダウンロードできるだけ、となった。


そして時代は下り、塩基配列解読技術が劇的に進化し、配列解読で遺伝子発現を測定する方法がメジャーとなった。いわゆるRNA-seqである。 塩基配列解読をするため、生データとしてはSequence Read Archive (SRA)に登録すればデータの再現性は担保される。 しかしながら、実際には発現定量したデータも一緒に登録されていなければならない。 そのため、NCBIのGene Expression Omnibus (GEO)やEBIのArrayExpressといった遺伝子発現データベースにそれらの定量データが登録されてきた。

DDBJはDDBJ Sequence Read ArchiveとしてSRAの登録も受け付けているので、配列データを登録した延長上で発現定量データも登録できると便利だということで、2018年にGenomic Expression Archive (GEA)がDDBJの遺伝子発現データのアーカイブとして立ち上がった。

ここで話がCIBEXに戻る。 かつて我々がCIBEXに登録したデータ …

Continue reading »


pre Trinity

Written by Hidemasa Bono in misc on 月 28 1月 2019.

Trinity前処理

以前書いたブログエントリを現状に合わせて見直して再掲載シリーズ。 リンク先にあるスクリプトがちゃんと動かないので、動くように書き直した。

遠隔作業が可能なので、時間のかかる処理を仕込みつつ。 fastq-dumpでヘッダを変えたFASTQでは、Trim Galore!(cutadapt)によるトリミングが失敗するようなので、仕方がなくTrinity(当時v2.5.1だったが、2019年1月に再度v2.8.3になったので試したが、変わらず)が実行できるようなヘッダに書き換える以下のようなフィルタ(for_trinity.pl)を書いて処理。ペアエンドのみの対応。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
#!/usr …

Continue reading »


blastdbcmd2019

Written by Hidemasa Bono in misc on 日 27 1月 2019.

localBLASTのblastdbcmdを使って配列エントリの特定の領域を取得する

以前書いたブログエントリを現状に合わせて見直して再掲載シリーズ、blastdbcmd版。

新規なモデル生物では、ゲノム配列が公開されていても多くの場合染色体ごとに配列が一本につながっていない。 どうなっているかというと、scaffoldという単位でゲノム断片配列が記述されている。

そういった場合でも、コマンドラインで使用する際のNCBI BLASTをローカルにインストールした際に一緒にインストールされるmakeblastdbというプログラムを使ってインデックスを作成、同じくインストールされているblastdbcmdを使ってエントリ名(-entry)と領域(-range)を指定することで、その領域の塩基配列を取得することが可能である。

makeblastdb -in hoge.fa -dbtype nucl -hash_index -parse_seqids
blastdbcmd -db hoge.fa -entry scaffold001 -range 2000-2500

このコマンドでは、一行目でhoge.faファイル(FASTA形式)に対してインデックスを作成、二行目でscaffold001の2000塩基から2500塩基までの配列を抽出する例を示している。 通常のmakeblastdb …

Continue reading »


BLAT

Written by Hidemasa Bono in misc on 土 26 1月 2019.

ぶらっとBLAT

以前書いたブログエントリを現状に合わせて見直して再掲載シリーズ、BLAT版。

BLATはThe BLAST Like Alignment Toolというツールで、UCSC Genome Browser のサイトにあるリファレンスゲノム配列に特化した配列類似性というか配列マッピングツールである。 ゲノム配列中のどこかに着地するという意味を込めて、ゲノムランディングツールとも呼ばれる。 そういうわけで便利なのだが、商用利用にはライセンスが必要なためか、広まっていない。 そういうツールだからHomebrewにはまさか入っていないだろう、と。 ぶらっと

brew install -v blat

してみたら、インストールが始まった…。 なんと、Biocondaにもあるようだ。

conda install blat

商用でなければアカデミア、非商用、個人利用はライセンスいらない模様。 ちなみに

blat refgenome.fa query.fa output.psl

という感じで使い、出力はPSL形式でoutput.psl …

Continue reading »


Make GEA Searchable from AOE

Written by Hidemasa Bono in misc on 金 25 1月 2019.

GEAをAOEから検索可能に

前にも触れた遺伝子発現データのアーカイブ、Genomic Expression Archive (GEA)であるが、公開データも出てきている。

それらのデータはEBIのOmicsDIからもいずれ検索可能になるらしいが、先回りしてAOEからできるように2019年1月のSPARQLthon76(DBCLSで月1回やっている統合DB関連のミニハッカソン)の自分の課題として取り組んだ。

基本的にArrayExpressと同じフォーマットのデータがGEAから公開されているということでArrayExpressと同様にparseしたものの。 やはりメタデータの記述が若干異なっているようで、全く同じにとはいかず。 一部手動で書き換えてなんとか検索可能に。 簡単にいうと、Last updateが取れなくなっていて、これが致命的エラーに。 よく見るとCommentに書かれているようで、そこからデータを取るように変更する必要あり。 Bioprojectに関しても同様。 先方と相談して直してもらうか、こちらで対処するか決めて、先に進めていこう。

それ以外のindex更新スクリプトも細々としたところを直して、GitHubにpushするなども。 より検索に引っかかるエントリを増やすため、更新ワークフローの延伸にも取り組んでいかねば。

Continue reading »


sequenceserver2019

Written by Hidemasa Bono in misc on 木 24 1月 2019.

sequenceserver

需要あるので、以前書いたブログエントリを現状に合わせて見直して再掲載。

BioHackathon2015で参加者たちがそれぞれに持ってきた研究紹介のパンフレットを見ていて発見したのが、このsequenceserver。 何の事はない、Ruby製のlocalBLASTのGUIなinterfaceなのだが、これがinteractiveに複数BLASTをかけてそのalignmentの結果をチェックしたい時になかなか便利。

便利だと思っている点をまとめると

  • queryに対してDB中の配列がどのあたりにヒットしたかという、かつてのpaintBLAST的なアラインメントのイメージがトップに出る
  • queryをコピペしたら塩基配列かアミノ酸配列か自動判別してくれる
  • 検索対象のDBが塩基配列系とアミノ酸配列系でリストされ、チェックボックスで選べる
  • 足したいパラメータを追加で指定できる

といったところ。 繰り返して使う時に再度1から設定しないといけない点の少なさがとても良いかと。

BLASTをHomebrewやBiocondaで入れてある前提で、 インストールは、以下のとおり、gem installで。

sudo gem install sequenceserver

だが、これがかなり時間がかかるので、

sudo gem install -V sequenceserver

にしてverboseモードにしたほうが精神衛生上よいかと。インストールできたら

sequenceserver

でサーバー起動、ウェブブラウザも起動して …

Continue reading »