Category: misc

エントリ数を数える

Written by bonohu in misc on 月 01 7月 2013.

ファイルが何行あるか知りたいだけなら、いちいちテキストファイルをWordで開いて文字カウントツールを使うまでもありません。そのファイルをfile.txtとするとコマンドラインでは [shell] wc -l file.txt [/shell] で良くて、文字数とかバイト数も合わせて知りたい時には [shell] wc file.txt [/shell] で知ることができます。

また、出現する文字の種類が何種類あるか知りたいだけならsortとuniqコマンドを使って [shell] sort file.txt | uniq | wc -l [/shell] すれば良い(ただし、この場合は一行に一単語というファイルの中身の前提条件があって、だが)。バイオインフォマティクスな業界ではそれが何回出てきたかが気になる状況が多々あります。そういう需要に対応するために以下の様な簡単なPerlスクリプト(count.prl)を2010年代の今になっても頻繁に利用しています。 [perl] while(<>) { my($word) = split; $num{$word}++; } foreach (sort keys %num) { print "$t …

Continue reading »


コマンドラインで快適なデータ解析を

Written by bonohu in misc on 土 29 6月 2013.

最近のバイオなデータ解析では、ファイルサイズが大きすぎたり、または多すぎたりで、GUIな環境では快適にファイル操作できないこともあって、コマンドラインでデータ解析をする人が増えてきたのはいい流れと思っています。基本的なシェルの操作は私がまた一から書くようなものではないと思うので、そのレベルの情報が必要な場合は、若葉本(初心者でもわかるバイオインフォマティクス入門)の「第2章必要なコンピュータ環境を作ろう」p38-92とか、Mount本(バイオインフォマティクスーゲノム配列から機能解析へ)第2版の「付録: UNIXをはじめよう」p565-570とか参照してください。

割と当たり前すぎて紹介されにくい、普段から私などがよく使う(技というにはおこがましいという人がいるかもしれないレベルの)tipsを何点か紹介します。

コマンド入力は、誰しもほぼ間違いなくタイプミスします。それを防ぐためにどうしているかというと、タブ補完を利用します。コマンドを途中まで入力して(たとえばcuff)、そこでタブ(tab)キーを入力するとコマンドサーチパスにその単語で始まるコマンドがsuggestされます。 [shell] % cuff cuffcompare cuffdiff cufflinks cuffmerge [/shell] さらにlと打って、タブキーを押すとコマンドすべてを入力しなくてもコマンド名が「補完」されてcufflinksとコマンドライン上に表示されます。 cufflinkだったか、cufflinksだったか、うろ覚えで、それに続くさまざまなパラメータを書いてしまってcommand not foundと言われてがっかりしなくてすみます。

直前に使ったコマンドを一部オプションを変えて再実行したいということが頻繁にあります。その際 …

Continue reading »


justRMAでnormalize

Written by bonohu in misc on 月 17 6月 2013.

マイクロアレイデータを再利用する場合、それらのデータのnormalizeは必須です。 GeneChipの場合、normalizeしたいCEL形式のファイル群を同じディレクトリに入れておいて、一気にやってしまうことがjustRMAで可能です。

まずRが入っているかどうか。入っていない場合、Mountain lion(10.8.4)の場合、homebrewで [shell] brew install -v R [/shell] とするだけでRの最新版(2013/6/17現在、3.0.1)をインストールできます。 WindowsだとCRAN、たとえば筑波大のCRAN mirrorからダウンロードするとよいでしょう。

[shell] source("http://bioconductor.org/biocLite.R") biocLite("affy") library(affy) write.exprs(justRMA(), file="RMA.txt …

Continue reading »


クロスプラットフォーム問題

Written by bonohu in misc on 日 16 6月 2013.

2010年代になった今でも相変わらず使用しているプラットフォーム(主にOS)の違いによって受渡したデータが閲覧できない等の問題は多く発生しているようです。

一番顕著なのはAJACS名古屋のテキストで詳しく書いたUNIX, MacOS, Windowsのテキストファイルでの改行コードの違いの問題でしょう。これらは歴史的な経緯があってこうなってしまっていて、普段はアプリケーションレベルで回避しているので問題にならないものの、自らが生データを扱うようになるととたんに問題の原因となっているようです。

OSの選択肢の傾向(データを渡す側はWindowsで受け取る側はUNIX)から一番良く起こると考えられる、WindowsのテキストファイルをUNIXのそれに変換する場合、以下のperlのワンライナーで変換できます。

perl -pe 's/r//g' win.txt > unix.txt

変換したいファイル名を変えずに上述の改行コード変換だけをしたいのなら以下のワンライナーがおすすめです。

perl -i~ -pe 's/r//g' data.txt

data.txtの改行コードが変更され、元ファイルはdata.txt~というファイル名に変更されます。

また、改行コード問題以前に、半角の(円記号)と\(バックスラッシュ)が違いない(同じ意味である)ということについて …

Continue reading »


'fastacmdの後継者: blastdbcmd'

Written by bonohu in misc on 土 15 6月 2013.

遺伝子上流配列など、ゲノム配列の任意の場所を切り出すのには、BLATパッケージに含まれている nibFrag をこれまで勧めてきました。FASTAフォーマットの配列ファイルに対して別個にnibインデックスを作らないといけなくて管理が面倒なのと、やはりBLATはfor profitには有償という大きな難点がありました(ライセンス料は決してお安くない)。

そこでpublic domainなソフトウェアのNCBI BLASTパッケージにも似たプログラムがきっとあるはずだろうということで探してみると… fastacmd コマンドがそれだったようです。しかしながらBLASTパッケージのバージョンアップでBLAST+になってからは fastacmd が含まれなくなっているようです。更に調べると blastdbcmd というプログラムがその後継という位置づけのようで、BLAST+をインストールする時に blastdbcmd は同時にインストールされるプログラムです。その使い方を調べてみました。

まず、makeblastdb コマンドでBLAST用のindexを作成します(かつての formatdb コマンド相当だと思います)。-dbtype nucl で核酸配列であることを指定し、-hash_index でインデックスの作成も指定しておきます(追記: -parse_seqidsを足さないと個別エントリの切り出しには対応しない模様。別のblastdbcmd関係エントリ参照)。ここで -in で指定している 1.fa はゲノム配列(1番染色体)が1本だけ入ったFASTAフォーマットのファイルです。

[shell] makeblastdb …

Continue reading »


Mountain Lion で local BLAST

Written by bonohu in misc on 土 08 6月 2013.

MountainLion(MacOSX10.8.4)のhomebrewでBLASTがとくにいぢらなくても入るようになった模様です。バージョンの確認は、左上のリンゴマークメニューから「この Mac について」を選んで出てくるウインドウで確認できます。 homebrewのインストールは「homebrew インストール」でググって入れてもらうとして、ここではlocal BLAST(以下、単にBLASTと書きます)を入れる際につまづきそうなことだけ。 普通に [shell] brew install blast [/shell] とやってもBLASTなんて知らんといわれてインストールされません。 [shell] brew tap homebrew/science [/shell] としてレポジトリを追加する必要があります(この場合、homebrew-science)。そうしてから [shell] brew install -v blast [/shell] とすると…2013年6月6日現在だと2.2.28のBLASTのコンパイルが始まります。コンパイルには結構時間がかかると思いますが、終わったら。 [shell …

Continue reading »



GUIとCUI

Written by bonohu in misc on 火 30 4月 2013.

GUIとはGraphical User Interfaceの略で、今使っているInternet ExplorerやGoogle Chromeなどのウェブブラウザのように主にマウス操作と最小限のキーボード入力でコンピュータが動いてくれるインターフェースのことです。ウェブブラウザ以外だと、表計算以外の目的でも頻繁に使われているExcelとか遺伝子発現解析ソフトウェアの定番GeneSpringなどがGUIなソフトウェアということになります。それらの操作法については、統合TVで動画としてプロトコールの行間を埋める形で多数紹介してありますので、そちらを御覧ください。 2010年代の最近ではGUIでも高度な操作ができるようなものも使われるようになってきました。例えば、Biomartを使うと遺伝子の上流配列を取得することが簡単にGUIでできますし、Galaxyを使うと特定の転写因子予測結合領域と遺伝子上流領域の「交差点」をリストアップすることが可能です。しかしながら、一般的にはGUIでは研究者が論文の図や表として求めるレベルのデータを作るには機能不足という状況がよくあります。 それに対してCUIとはCharacter User Interfaceのことで、コマンドをキーボードから直接入力してコンピュータにジョブを投入する方式のことです。CUIなツールに関しても一部、LocalBLASTcygwinBioperlの使い方を通して統合TVでも紹介してきましたが、そのバリエーションの多さ故にそのありがたさの多くを伝えきれていません。 そこで、ここではその「バリエーション」に敢えて向き合い、いろんな使い方を「プロトコール」として紹介していきたいと思っています。

Continue reading »


バイオインフォマティクスの広がり

Written by bonohu in misc on 木 25 4月 2013.

電子化されコンピュータ上で扱えるデータが主に核酸配列とそれを翻訳して得られるアミノ酸配列だったこともあり、それらのデータ解析(配列解析)がバイオインフォマティクスと呼ばれてきました。その流れで書かれた教科書が我々が翻訳したMountのBioinformaticsです。 マイクロアレイの発明により遺伝子発現が網羅的に測定できるようになるとそこから得られた数値のデータもバイオインフォマティクスで扱うデータの対象となってきました。それを考慮して第二版のMountのBioinformaticsはマイクロアレイデータ解析の部分が加筆されています。 [amazon asin=4895924262&template=thumbnail] また、知識として蓄えられた代謝経路などのパスウェイのデータもバイオインフォマティクスとして認知されるようになってきました。現在ではそれらのデータは、人類共通の知的な財産としてWikipediaなどにまとめられ(Gene WikiWikiPathwaysなど)、誰でも自由に使えるようにする流れになっております。 それらのデータを使ったシミュレーションもバイオインフォマティクス、さらには測定機器から得られるイメージデータのデータ処理もバイオインフォマティクスと呼ばれているのが現状だと思います。さらには、今後得られるであろう臨床データもバイオインフォマティクスとされていくのではないかと思います。つまり、ライフサイエンスを研究すること=バイオインフォマティクスになりつつあるのです。

[caption id="attachment_35" align="alignnone" width="300"]バイオインフォマティクスの範疇 バイオインフォマティクスの範疇[/caption]

Continue reading »



はじめに

Written by bonohu in misc on 日 07 4月 2013.

私は、約十年前に「初心者でもわかる!バイオインフォマティクス入門―やさしいUNIX操作から遺伝子・タンパク質解析まで」と題した本を書きました。表紙などにある若葉マークが印象的なため、「若葉本」とその筋の人たちには呼ばれています。2001年の秋から1年間、羊土社刊の「Bioベンチャー」誌に創刊号から連載させていただいた、ぼうのうによる「バイオインフォマティクス入門」の連載記事を纏めて加筆した本です。とくに第2章「必要なコンピュータ環境を作ろう」、第4章「最新の研究をのぞいてみよう」は完全に書き下ろしです。情報科学方面から参入しようとしている方には生物学者に対する間違った認識による行き違いのないように、とくに第1章4節「バイオインフォマティクスと情報科学」の一読をお勧めします。 ぼうのうがよく周りから訊かれること、普段から考えていることを文章にした本で、また本にすることによって考えがまとまり非常にすっきりしました。本当にいい経験をさせてもらい、また周りの人にも自信を持って勧めれる本になったのでいうことなしでした。[amazon asin=489706290X&template=thumbnail]

それと同時に海外でも使われているBioinformaticsの教科書の翻訳、監訳にもたずさわり、バイオインフォマティクスが日本で普及することに加担してきたつもりです。とくに、Cold Spring Harbor Pressから出ているBioinformaticsは、Mountさんが著された本なので、「Mount本」と呼ばれています。日本語訳は 「バイオインフォマティクス ゲノム配列から機能解析へ …

Continue reading »





生物オフ会

Written by bonohu in misc on 土 02 2月 2013.

学会(の年会)じゃないタイミングで参加するのはおそらく初めて。主賓の一人も神戸でのオフ会で知り合った人だったが、もう一人も実は知られていたというオチ。世間は狭い。

Continue reading »


またジムへ

Written by bonohu in misc on 日 27 1月 2013.

復帰2回目。有酸素運動にウォーキング25分、筋トレ、水泳25m往復12回。利用券を使い果たしたので、早速次を頼んでおく。

Continue reading »


進捗報告会

Written by bonohu in misc on 火 22 1月 2013.

昨年と打って変わって、不気味なほどにdisられず、むしろ恐ろしい。総評で言われた「対等なコラボをして、biologistだけじゃできない成果を出す」ことの実現に向けて、さらに頑張って行きたい。

Continue reading »


ソトバリカン

Written by bonohu in misc on 土 19 1月 2013.

セルフウチバリカン続きでおかしくなったところを補正に。ちょうど割引券もあったので。しかし、何年ぶりだろう、お金払って散髪するのは。思い出せないほど(笑)。中6週間。

Continue reading »


ジムへ

Written by bonohu in misc on 金 18 1月 2013.

秘境を退去して以来、5年半以上ぶりかも。その頃と同じぐらいの体重になってきたのと、スキーのための筋力づくりのため。主に上半身の筋肉を苛める。継続的に行くべし。

Continue reading »





第二成人式

Written by bonohu in misc on 金 11 1月 2013.

ということで、職場でも祝っていただき…感無量でした。「四十にして惑わず」ということで、何事も「とりあえず」ではなく「まず」と言えるよう。さらには「今日やれることは今日やる」を第二成人式の誓いとして日々邁進していきたいと思いますので、どうかよろしく。

Continue reading »


2013年の計

Written by bonohu in misc on 月 31 12月 2012.

去年に立てた「計」はある程度は達成できたものの、3番目に掲げた「実際に、現場で、使った論文等を世に送り出す」ことが達成できなかった。今年は、ライフサイエンスデータベース統合推進事業「基盤技術開発プログラム」の3年目の節目の年であり、まとめることを強く意識して、氷柱のように鋭く日々累積的に伸びていくが如く、取り組んでいきたい。

Continue reading »


無観客試合

Written by bonohu in misc on 木 27 12月 2012.

ならぬ、聴衆のいない講演。とはいえ、がんプロフェッショナル養成プランの収録講義なので当たり前なのだが。約4年半前に撮ったもののを今回アップデート。統合TVの数だけで比較しても前回の8倍ほどに。紹介したすべてのデータベースやウェブツールに関して統合TVがある状況(作成中2つを含めて)。まさに統合TV-centralながん医療従事者向けのバイオインフォマティクス講義となった感(以下のスライド参照)。

[slideshare id=15820769&w;=427&h;=356&fb;=0&mw;=0&mh;=0&style;=border:1px solid #CCC;border-width:1px 1px 0;margin-bottom:5px≻=no]

バイオインフォマティクス(2013年度以降用改訂版) from Hidemasa Bono

収録システムも以前よりもかなり良くなっていて端々に工夫が。ご苦労様です。

次やることがもしあったなら、がんゲノムのネタをもっと入れた話ができるようにデータベースやツールが整備されてくるといいんだけどなあ。

Continue reading »


おつかれさまでした

Written by bonohu in misc on 土 15 12月 2012.

朝一から共同研究者の発表。学会デビューでいきなり口頭発表ということで緊張しただろうけど発表自体はうまくできていた。素晴らしい。演者の数も多いからしょうがないかもしれないが、朝8時からセッションというのは連続開催で6日目の身にはなかなかキツイ。やはり合同年会(ry(シツコイなw)。

ポスター発表も最終日で午後6時まであったものの、その最後の最後に後輩がポスター賞(鈴木紘一メモリアル賞)を取って大いに沸いた。おめでとう!

「人と人とをつなげるIT」のおかげもあってか、二度のtwitterオフ会(分セーと生化)もあって、個人的には「これまでリアルには会ったことがない」人達に多く出会えて大変満足。交換した名刺も(大学院生の頃から出ているこの学会にもかかわらず)この6日間だけで30枚。もっと多くの人と人とがつながるよう、これからも継続して微力を尽くしたい。

Continue reading »


夏草や兵どもが夢の跡

Written by bonohu in misc on 土 15 12月 2012.

昨日までと打って変わってもの寂しい。企業展示ブースも半分ほどになり、空いたスペースが休憩所。屋台、タリーズコーヒーもなく。人が減ったおかげでWiFiはつながりやすく快適にはなったのだが…活気がなく物理的にも寒い。やはり合同年会にしたほうがいいじゃないかなあ。

Continue reading »


隗より始めよ

Written by bonohu in misc on 木 13 12月 2012.

ブースアテンド最終日。さすがに4日も基本立ちっぱなしだと脚が痛くなる。この日だけはポスター発表と企業ブース展示の時間が被っていたのだが、ブースを出す側の人間として毎日そうなるように切に要望したい(一昨日のブログにも書いたが)。ブースでの展示も四日間もずっとやっていると改善点が浮かび上がってくるわけで、それをフィードバックして次回以降良くしていきたい。

そういった改善点もあるものの、特設の屋台の企画(写真)やiPad貸し出しなど「年会の新しいスタイル」に一石を投じられたのではないかと。最後の最後にあった高校生発表も、一般演題よりもえらく盛り上がって人だかりでディスカッサーをお願いされたものの全くその必要性がないまま制限時間一杯w。先に帰ってしまう人も多いので、会期の中頃にしたほうがもっと盛り上がっておもしろいかも、と思った。

今回の年会は、IT企画に関して電子メールを送ったところから年会のIT化委員会の一人として主にオンライン抄録集まわりで関わらせて頂いた。やはり参加者みなさんの意見が大事。もっともっとフィードバックして良くしていかねば、と思う。

関係者の皆様、本当におつかれさまでした。

Continue reading »


ワークショップ「データベースから始まる分子生物学~研究の新しいスタイルを模索する~」

Written by bonohu in misc on 水 12 12月 2012.

企画したワークショップ。どんな演者がどんなタイトルで話したかは以下のスライドの3枚目に。自分も前座として、データベースを利用した研究をやっている実例を簡単に話させていただきました(以下のスライド参照)。

[slideshare id=15693138&w;=427&h;=356&fb;=0&mw;=0&mh;=0&style;=border:1px solid #CCC;border-width:1px 1px 0;margin-bottom:5px≻=no]

データベースから始まる分子生物学~トランスクリプトーム解析研究の新しいスタイル~ from Hidemasa Bono

様々な材料を扱っているネタ、とくに非モデル生物での研究や、流行りの次世代シーケンサーがらみのネタなど、データベースを利用しているということだけが共通点で集めたら、短時間の割りに盛りだくさんで楽しめたかなーと。

ラスツー演者(6番目)の三嶋さんもスライドをアップしてくれていますので、ここに貼り付けさせて頂きます。

[slideshare id=15738172&w;=427&h;=356&fb;=0&mw;=0&mh;=0&style;=border:1px solid #CCC …

Continue reading »


夜ゼミを楽しみたい!

Written by bonohu in misc on 火 11 12月 2012.

そのためにはまず夜の時間を作ることかと。今回は初めての企画だったからしょうがないかもしれないが、普通にポスター発表を自分でするなり聞くなりしてからだと午後9時スタートにしかスケジュールが組めず。そうなると気軽に企画できませんよね…。

そのためにはどうしたらいいか?会場のスペースの問題もあるだろうけど、シンポジウムやワークショップの開催を検討して、一般演題の発表をもっと早い時間にやるべき。特に今年は企業ブース展示が終了してからポスター発表(一般演題)開始と最悪のスケジューリング。こんな出展業者無視の姿勢では来年以降ブース展示してくれなくなるよ。その辺、よくご配慮いただきたい。

Continue reading »