Books for Biological Data Analaysis
生命科学データ解析の本ガイド
2019年に生命科学データ解析関連で4冊本を出版したため、「ぼうのうさんの本を読みました」と言われてもまず「どの本?」と訊き返すところから始まることが多く。 また、「どれを読めばいいですか?」という質問も多いので、自分で出版に関わった本のガイドらしきエントリを。
なお、#
のリンクはtwitterのハッシュタグではなく、このぼうのブログのそのカテゴリーのエントリにリンクしている。
オールラウンド向け
Dr.Bonoの生命科学データ解析 #DrBonoBon
バイオインフォマティクスの教科書として、MountさんによるBioinformaticsの翻訳本が2000年代にあったが、それもoriginalが改訂されることなく絶版に。
そこで、その本の内容のうち、配列解析に関わる部分を中心に、次世代シーケンサーからの塩基配列データが溢れる2010年代向けに書かせていただいた本がこの #DrBonoBon
。
2008年から始めた統合データベース講習会AJACSでの講師経験や、実際の共同研究での実戦経験が元となっていて我ながらコンパクトにまとまっている。
2017年9月出版で、これまでに多くの方に読んでいただいた(と思われる)。
コマンド等もたくさん書いてあるものの、本書はあくまで教科書で、それをターミナルに打ち込んでもうまく動かないことが多く。
その要望を受ける形で以下に紹介する#DrBonoDojo
が出版されることとなった。
生命科学データベース・ウェブツール #TogoTV18
統合TVは動画で生命科学分野のデータベースやウェブツールを紹介するサービスで、DBCLSに我々が来た2007年7月から続けている古参のサービスでもある。
統合TVはウェブ上のサービスだし、それを本にするなんておこがましいと思ってきたが、それではリーチしない生命科学者層があることに学会年会などの展示ブースでひしひしと感じていた。
そこで、統合TVの中でも人気の動画を紹介する紙媒体の本を出そうということで、2018年11月に出版したのがこの#TogoTV18
。
基本、ウェブブラウザ上で行うことができるデータベース検索やデータ解析を紹介していて、コマンドライン操作は出てこない。
18は紹介したテーマの数で、1つのテーマに複数の統合TVが該当することも多く、多くの統合TVの動画を紹介している。 18のテーマ以外にも統合TVの動画がどう作られているか、その動画を使って来られた方によるコラムなど、豊富な内容となっている。
入門者向け
生命科学者のためのDr.Bonoデータ解析実践道場 #DrBonoDojo
#DrBonoBon
の内容に沿う形で、コマンドライン操作を使いこなすために必要な、生命科学研究者向けのチュートリアルの入門書がこの#DrBonoDojo
。
2019年9月の出版。
他書ではあまり詳しく書かれることがないコマンドラインになれてもらうための内容を充実させたのが特徴。1章 準備編、2章 基礎編で詳しく書いてあり、その2つだけでこの本の1/3のページ数が割かれている。
3章 実践編は、#DrBonoBon
の4,5章で紹介した内容を実際に自分でも動かすためのチュートリアルとなっている。
その中身は、次世代シーケンサーからのデータ解析に特化しているわけでなく、どちらかというとそれが出てくる前からバイオインフォマティクス手法としてよく使われてきた配列類似性検索や分子系統樹作成、機能ゲノミクスに必要なトランスクリプトームデータ解析が中心。
しかしながら、さわりの部分しか紹介しきれていないのはちょっと心名残りなのだが、これ以上詳しく書くとなると専門性が高くなり多くの読者に必要がない恐れもあると考えて適度なところで止めてある。
生命科学データ解析を支える情報技術 #IT4BDA
これまでの本はメインターゲットが生命科学関係者であったが、この#IT4BDA
はIT系のエンジニア(SE)さん向けの入門書。
SEさんが生命科学分野のデータ解析に興味を持ったり、することになったりした際に読んでもらえるといいなあと考えて構成、自らの執筆した本。
2019年2月出版。
中上級者向け
RNA-Seqデータ解析 WETラボのための鉄板レシピ #RNAseqRecipe
身近になったRNA-Seq解析において、大きな比重をしめるRNA-Seqデータ解析に特化した本。 本の構成としてはRNA-Seqを業者さんに外注したり、興味あるデータを公共データベースから検索してダウンロードしてくるところから始まっており、最後にはDDBJにデータを登録するところまでがカバーされている。 もちろん、その間のデータ解析に関しては実際に使われている具体的な手法やそのプログラムを紹介してある。 2019年11月の出版。
NCBIのシステム変更やmacOSの仕様変更などが出版の時期と重なってしまい、書いてあるままでは動かない事態も出てきている。twitterにハッシュタグ #RNAseqRecipe
をつけてつぶやいてくれれば出来るだけ調査して対応したいと思ってます。
次世代シークエンサーDRY解析教本 改訂第2版 #NGS_DAT
2015年9月に出版された次世代シークエンサー(NGS)を利用したさまざまな解析のデータ解析に向けた本のアップデート版がこの改訂第2版で、2019年12月に出版された。
改訂版ではあるが、Level2(実践編)とLevel3(応用編)は総取っ替えされており、前の版から残っているものは一つもない。
さらに前版にはなかった、メタゲノム解析、バクテリアゲノム解析、動物ゲノムアセンブリ、トランスクリプトームアセンブル解析がLevel2に追加されており、この本から学習可能なデータ解析の種類が増えている。
この本に関しても、twitterのハッシュタグ #NGS_DAT
が用意されている。
また、Level2で紹介されたワークフローは、p331で紹介されている再利用性の高いCWL(Common Workflow Language)のコードとして公開されている。