Category: misc

SPARQLthon46 day1

Written by bonohu in misc on 月 25 7月 2016.

今回はいつもと違い、DBCLSではなく新潟大学での開催ということで、RDFやSPARQLの入門的な講習会がほぼ1日開催された。こういうスタイルは新しいが、こういう形の地方行脚重要。 こちらはいつものハッカソンで、ネットワーク接続にちょっと手こずるも、あらかじめ仕込んでいたAOE更新用のindexの取得が失敗していた…orz。なぜかマシンが落ちてた模様。emobile回線に切り替え、VPN使ってログインし、USB HDをマウントして、再度開始する。

rsyncが使えるかどうか、 [shell] rsync rsync.ebi.ac.uk:: [/shell] というコマンドを実行して調べてみたところ、どうも使えるらしい。そこで、さらに継続してrsyncのオプションを調査。 例えば、ftp://ftp.ebi.ac.uk/pub/databases/arrayexpress/data/gxa/rdf/以下をcurrent directoryにrsyncしたい場合には、 [shell] rsync -av rsync://anonymous@rsync.ebi.ac.uk …

Continue reading »


SPARQLthon@新潟大学

Written by bonohu in misc on 日 24 7月 2016.

明日、明後日(2016/7/25-26)に、新潟大学にてSPAQRLthon開催(SPARQLthon46)。いつもの柏とは別の地域で開催することは、RDFの普及という意味で重要だと思う今日このごろ。そういった研究活動をしている研究者が居るところでしかできないのが難点。SPARQLthonに来るような、データベース統合化に関わっている研究者が日本全国に職を得て、普段から教育活動するようになってくれると良いのだが。今回は、まさにその実例として素晴らしい。地元の学生さんが多く参加されるようで、大変楽しみ。

Continue reading »


非モデル生物から新規モデル生物へ

Written by bonohu in misc on 土 23 7月 2016.

前職では、基礎と臨床を医学の研究をやろうということで、ノーベル賞を取った線虫(C.elegans)を使ったprogramed cell deathの研究が当時もてはやされていたこともあってそちら方面の可能性を探っていた(ちなみに、「きそ」と「りんしょう」の「いがく」の研究、ということで「きしょい」研究と銘打ってやっていたのだが、定着はしなかったようだ)。普段は土の中に潜っていて低酸素な環境に居るから良いモデルになるかも、ということで線虫を使った低酸素モデルでのトランスクリプトーム解析をマイクロアレイでやっていたものの、すでに先行研究があって別の系とのクロストークを探っていたのが10年前。 DBCLSに来てしばらくはDRY onlyだった。もちろん、データベースセンターなので、それが普通なのかもしれない。しかし、データベースの有用性を知ってもらうには、なによりも実際に使って上手くいった実例をあげていかないといけないと思うようになっていった。だが、単なるお手伝いではいけない。成し遂げるのに困難なのだが、バイオデータベースの専門家による手助けの恩恵が強い分野…これまでモデル生物とされてこなかった非モデル生物、もとい新規モデル生物におけるデータ解析研究ではなかろうか、と思うに至った。 その過程で、たまたま縁あって昆虫生化学者との共同研究が叶い、パーキンソン病モデルとしてカイコが使えるという論文を出し、さらにその続きの研究を今も進めている。 また、これまた縁あって癌や老化の新しいモデル生物として注目されているハダカデバネズミを使った研究にも関与している。ハダカデバネズミ由来のiPS細胞に関する研究の論文が出たところだが、それ以外の現象に対してもこの新規モデル生物でアプローチできないか、議論している。 それ以外にも要請あればいろいろとやっていきたいと思っている。自分の持っている研究できる時間は有限だけれども …

Continue reading »


アクセッション番号のバージョン

Written by bonohu in misc on 金 22 7月 2016.

データベース(DB)、とくに塩基配列DBは公共DBに登録しないと論文が受理されないこともあって、DBのアクセッション番号(ID)に関する認知度は高いようである。しかしながら、アクセッション番号のバージョンについては知られていないのではなかろうか? 例えば、論文を投稿する際にAB016471というアクセッション番号がついたとすると、バージョン付きのIDはAB016471.1となる。つまり.1の部分がバージョンの情報で、バージョンが上がるごとに.2、.3と変わっていくわけである。 一般的にはバージョンなしのAB016471でアクセッション番号としては流通することがおおく、この種のバージョン情報を一括で消したい場合もある。その場合に有効なのが以下のワンライナーで、一行ごとにアクセッション番号が書かれたファイルaccessions.txtに対して

[shell] perl -i~ -pe 's/.d+//' accessions.txt [/shell]

という処理をするとバージョン情報の部分を削り取ることができる。ちなみに、元のファイルはaccessions.txt~というファイル名となってバックアップされている。

Continue reading »


第16回日本スポットファイアーワークショップ(創薬研究領域)

Written by bonohu in misc on 木 21 7月 2016.

沼津でのSpotfireワークショップ2日目。今日は丸一日で、午前中はトレーニングセッション、午後はPKJ社セッションとJASPUGユーザーセッション。 自分は10年を超える長年のSpotfireユーザーではあるものの、典型的なユーザーと使い方が異なっている。昨日もSummary Tableの可視化が使えていない自分に気づくなどしたし。取りこぼしている機能が多々あるので、初心者向け体験会ということだったがトレーニングから参加。Trellisは活用していたものの、フィルタのウインドウの特定の部分をドロップしてTrellisが作れるようになっているのは全く知らなかった。それらしい機能があるのは知っていたものの使ったことがなかったCross Tableも便利だと気付かされたり。トレーニングを一通りやってみて、いろいろ得るものが多かった。 ユーザーセッションでは、大量に出てくるデータをどう見るか、それを考える姿勢に感銘を受けた。対象となるデータが違っても取り組む姿勢は大変参考になる。これまでの自分の普段のやり方で果たしていいのか、考えさせられた。もっと、自分が解析したデータを見て考えることに時間を取るべきですね。 Twitterのフォロワーさんが参加していたというのを終了してから知るなども。お会いできなかったのが大変心残り。Spotfireが広まってきたのか、この世界が狭いのか、果たして。次回の再会を楽しみに日々励もう。

Continue reading »


第15回日本スポットファイアーワークショップ(創薬研究領域)

Written by bonohu in misc on 水 20 7月 2016.

今年も沼津駅北口のプラザヴェルデで開催のスポットファイアーワークショップ。2日間開催の1日目は第15回ということで、MedChem(Medicinal Chemistry)な内容。2日目は第16回目で、バイオHCS(High Content Screening)編。 なぜMedChemな内容の1日目の今日に来たのか、訊かれたり。最近ではPubChemChEMBLがRDFでデータを提供していることもあり、本務のDB統合化でも化合物なデータの扱いも増えてきていて。かつてよりもずっと、いろんな意味で関係が深くなっている心持ちなのだが、参加者の人達にはそうとは思われていないんだろうか。そっち向けに統合DBの宣伝が足りないかもしれません。 SpotfireからNBDC/DBCLSで維持しているRDFデータの資産が直接利用できるようになるといいな、と妄想したり。

Continue reading »


スポットファイアーワークショップ2016 at 沼津

Written by bonohu in misc on 火 19 7月 2016.

明日明後日、2016年7月20,21日は昨年に引き続き、沼津駅北口のプラザヴェルデにてスポットファイアーワークショップ(創薬研究領域)が開催。今年は2日連続開催で、それぞれ第15回(Med Chem編?)と第16回(バイオHCS編)になります。かつてのスポットファイアーユーザー会長だった人間としては現在の職場近くで開かれて大変ありがたいというか、嬉しいです。このイベントのtwitterのハッシュタグはおそらく #JASPUGWS です。 一点ご注意を。ドレスコードには、ご留意下さい。「ジーンズなどカジュアルなスタイルで」、「アロハシャツも歓迎」とのことです。間違っても長袖のスーツで来られないように。梅雨も開けて、亜熱帯化した開催地では涼しい格好をしないと出歩けない状況かと思います。 蛇足ですが、沼津にアロハシャツ仕立て屋さんがあるそうです。もう間に合わないかもしれませんが、参考まで。

Continue reading »


'Shizuoka.py #5'

Written by bonohu in misc on 日 10 7月 2016.

- Docker

静岡県富士市吉原で開催されたShizuoka.py #5に参加してきた。第3回目から参加しているものの、自分でscratchからPythonのコードを書くことは少なく、そのリソースを利用させてもらって何かをするという機会ばかりが増えている。現にAOEもその1つだし。 今回は、東京で毎月開かれているみんなのPython勉強会に参加してきたので、その紹介という形のLTをさせていただいた。Pythonの勉強会なのに、高橋メソッドジェネレーターを使った画像で発表するという喧嘩を売るスタイルで。その前日に飛び入り参加してきたpitagora-galaxyに関してもバイオなデータ解析の実例として紹介してきた。 自分の発表はともかく、今回も自分自身がいろいろ勉強させてもらってきた。一番興味を持ったのはやはり前から何回か話をうかがっているFlaskによるウェブ開発。今回@aoshiman氏が発表された「Vagarant+DigitalOcean+AnsibleでPython開発環境を構築する」ができた上でのその後の話ではあるが、やはりそちらに興味をさらに持った。Flaskいぢりは是非時間を取ってやってみたい、ドキュメントも充実しているようだし。 また、このサイトもいつまでもWordPressで運用するのもどうかと思っていて、前回のMishima.syk #8でも話題になったStatic Site Generatorに興味を持っていたところ、さらにそっち方向にいい意味であおってくれる「python-pelicanでブログを作る話」が@hrs_sano645氏によって発表されたり。新しいもの導入したがりな心がうずうずしてきた …

Continue reading »


新規モデル生物NGS解析にpitagora-galaxyは使えるか?

Written by bonohu in misc on 金 08 7月 2016.

pitagora-galaxy meet-up(2016/07)に飛び入り参加してきた。昨年にGalaxy Workshop Tokyo 2015に参加し、VirtualBoxを使って仮想環境でデータ解析する仕組みのチュートリアルを受けて以来。それから1年間経ってのアップデートを期待して。 ここにある手順通りに再実行。まずはバージョンアップしていなかったVirtualBoxのバージョンアップから。OVAイメージも最新に。RNA-seqのワークフローを例として、新規モデル生物の配列データ解析で使えるレベルになっているかという観点から動かしてみた。テストデータではちゃんと動いたが、実際の生データではどうだろう?今度試してみたい。 仮想環境を使うゆえにメモリを大量に消費する計算はこの環境では厳しそう。だが、コマンドライン操作に不馴れな生命科学者にとってデータ解析の取っ掛かりには優れたツールだと再確認。今年度後半に予定している遺伝研研究会「次世代モデル生物におけるゲノム情報利用ワークショップ」(PDF)でハンズオンとかできるといいかなと思った次第。

Continue reading »


統合データベース講習会AJACS安芸

Written by bonohu in misc on 木 07 7月 2016.

2016年7月5,6日に広島大学霞キャンパスでの統合データベース講習会AJACS安芸に講師として参りました。今年度、1回目。 講師としては、1日目の「遺伝子発現DBの使い方」と2日目の「ライフサイエンス分野データの可視化と共有化」を担当しましたが、2日目の講習でRを使うので前日入りして動作をチェック。ウェブブラウザとしてIEを使うとRのデータ読み込みで失敗して先に進めなくなるというトラブルにあい、講習中の時間ロスを未然に防げたのはよかった。やはり、前もっての動作確認重要です。

2日目の講習テーマは新規で、どれぐらい時間かかるか読めず、多めのコンテツを用意していったわけですが、やはり多めでした。Rを使ってもらうにあたり、作業ディレクトリを設定する(setwd())ところで多くの方がコケてそれをすべてフォローしていたら時間が無くなり、なんとかPCAをかけるのを見せれたぐらいで、Bioconductorの利用までみんなで講習できず。残念。

今回登録者が60人を超え、関心の高さを実感しましたが、その一方で反応がなく…。こちらも機械じゃないので、良い反応があるとさらに良い講習ができるのではないかと。参加者も増えて受講生層も変わってきたからでしょうか。

それにしても、こういう講習会もずっと続けていて果たしていいのだろうか?DBCLSがはじまった時から始めていて10年目。そろそろ見直しの時期に来ていると思います。いい加減、各大学でそういうことが教えられる人を雇って常時居るようにしないと、生命科学研究が立ち行かなくなるのではないかと改めて心配に思いました。

Continue reading »


遺伝子機能予測から遺伝子機能アノテーションへの20年

Written by bonohu in misc on 土 02 7月 2016.

このブログでも紹介したカイコアノテーションパイプラインは急に思い立ってそれを開発したわけでなく、大学院時代から続けてきた遺伝子機能予測の延長上にある研究です。 1998年に出した初めてのfirst author論文は、今ではどちらかというとKEGGのパスウェイデータ解析の最初の論文としてciteされることが多いようですが、実はゲノムスケールの遺伝子機能予測ツールGFIT(Gene Function Identification Tool)に関する最初の論文です。対象はゲノム配列が決定され、そこから予測された読み枠(ORF: Open Reading Frame)から得られるアミノ酸配列セットに対して、でした。 さらに、対象とする生物種を高等真核生物のマウスに、mRNAから逆転写して得られるcDNA配列セットに対してこの遺伝子機能予測を適用しました。しかし、機械的に遺伝子機能予測しただけでは不十分だろう、ということで、その予測結果を専門家に集まってもらってすべて見てもらうことにしました。それが、遺伝子機能アノテーション(注釈)といわれるようになり、それこそがFANTOM(Functional Annotation of Mouse)と呼ばれているものです。 FANTOMは遺伝子機能アノテーションから離れてどんどん進化していっていますが、遺伝子機能アノテーション自体はさまざまな生物種でゲノムワイドな解析をする際に必要不可欠です。近縁のよく遺伝子機能アノテーションがなされている生物種に配列類似性検索をALL対ALL、すなわち全てに対してかけてその対応を取ることがなされています。カイコアノテーションパイプラインに関しては、ヒトの疾患モデル動物としてカイコを使うことを意図した研究でしたので、そこを近縁のショウジョウバエに敢えてせずにヒトを使ったという点がポイントでした。

Continue reading »


SayaMatcherはどうなったのか?

Written by bonohu in misc on 金 01 7月 2016.

かつて埼玉県狭山地方に勤務していた時にSayaMatcherという計算する仕組みを作って、転写因子結合配列などをゲノム配列から探しだし、それらをBED形式やらで出力し、ゲノムブラウザ上で見れるようにしていました(Bono HU: Gene, 364, 74-8, 2005)。それから10年あまりが経ち、個人のゲノム配列がかつての技術目標であった千ドルほどで決定できる時代になってしまいました。suffix array技術を生命科学データベースに応用し、RefSeqのデータに対して検索できるようにするGGRNA(ググるな)を2011年から開発し、さらにそれをゲノム配列に特化して検索できるようにしてGGGenome(ゲゲゲのむ)を開発しました。 GGGenomeを使うことで、かつてEMBOSSのプログラム(dregやfuzznuc)を使って時間をかけて計算していたのが数秒で答えが返ってくるようになりました。その結果、GGGenomeのAPIならびにその出力オプションにbedを指定することで、その計算結果をUCSC Genome Browserなどで表示させることが可能となりました。 かつてはChIP(クロマチン免疫沈降)実験した結果をマイクロアレイで検出して、その結果とそれまでに知られていた転写因子結合配列がどう違っているか、そういった目的に使っていました。現在ではChIP-seqというかたちでハイスループットに実験が可能となり、しかもそれらのデータがすでに定量され、UCSC Genome BrowserからTrackとして利用可能になっています。生命科学者は、手元のGenome Browserを自分の好みに合わせてカスタマイズすることで、それら複数の結果の比較検討ができるようになっています。 というわけですので、SayaMatcherはGGGenomeへと「進化した」と考えていただいてよいと思います …

Continue reading »


2016年前半戦終了

Written by bonohu in misc on 木 30 6月 2016.

今年も早いもので前半戦終了。出張はかなり多かったようで、外泊数がなんと合計43泊。一月に約7泊ということで、勤務日の約1/3は外勤だったという計算。どこに居ても仕事できる環境を作ってきたが、そこでしかできないことしかやっていないのではないか?ありがたいことに遺伝研に来て三年目、最近になってローカルでの連携ネタが続々出てきている。そういった芽を絶やさぬよう、大きな共同研究へと育てていきたい。そして、明日からついにDBCLS10年目になる。中長期的な戦略を考え直す時期にきていると思う。日々の業務もこなしつつ、今後の戦略を熟考したい。

Continue reading »


群馬大学大学院医学研究科非常勤講師

Written by bonohu in misc on 木 23 6月 2016.

「オミックス医学とバイオインフォマティクス」というお題で。やはり90分では短く、珍しく時間オーバー気味。じっくり教えるには、単発の講義ではとても収まらないレベルの内容になってきた感。時代の流れとともに必要とされているのです、是非きちんとそれをやれる教員を雇ってそういった講義を半期なり通年なりで開講していただきたい。

ところで、直前に「医療に役立つ遺伝子関連Web情報検索」が献本で送られてきたのでご紹介した。医療系の初学者向けに今どきのインターネット上にある情報検索を教えてくれる本なのだが、なぜか統合TVが全く言及されていない。 [amazon template=thumbnail&asin=4895928616] 話の内容的には以下の「ゲノム医学」の方が近く大変参考になった。とくにExome解析でわかってきた単一遺伝子疾患の原因遺伝子の表(p272)。それ以外にも知識の整理や新たな発見もありそうなので、夏休みの課題図書にしたいところ。 [amazon template=thumbnail&asin=4895928446]

Continue reading »


2016 BioHackathon 5日目

Written by bonohu in misc on 土 18 6月 2016.

最終日。ひきつづき。そして最後にwrapアップ。今回、AOE2のデータ作成パイプラインの構築に取り組み、機械的に単純にindexとなるデータを作るところまではできた。それらの成果(スクリプト群)はgithubのAOEプロジェクトのレポジトリに。今後は重複しているエントリをどうにかしてまとめる工程に取り組んでいく。

Continue reading »


2016 BioHackathon 4日目

Written by bonohu in misc on 木 16 6月 2016.

一昨日に仕込んだArrayExpress(AE)のファイルリストの取得が終わったので、AOE1の更新を続き。もうちょっとファイルリストが高速に得られればもっと更新が早くできるんだが…。AEをローカルにミラーするようになったらそれらを自動化するようにしてweeklyやdailyというのも夢ではないかも。

Continue reading »


2016 BioHackathon 3日目

Written by bonohu in misc on 木 16 6月 2016.

中間発表を1時間で。午後はExcursionということで、目の前の温海岳(標高736m)にbug取りがてら山登り。意外に険しい山道だったが、珍しい蝶が採れたらしい。

Continue reading »


2016 BioHackathon 2日目

Written by bonohu in misc on 火 14 6月 2016.

温泉インフォマティクス研究会足湯支部に入部するも、蚊と雨の襲撃により敢え無く延期。今月のAOE1の更新も進めつつ、昨日入電した裏プロジェクトの解析も並行して。

Continue reading »


2016 BioHackathon 1日目

Written by bonohu in misc on 月 13 6月 2016.

本日6/13から6/17までBioHackathon。今回も引き続きAOE2.0に向けてhackします。メタボにならないように、今回はランチはホテルでとらない作戦で。夜にガッツリ方針を議論。自分のやるべき方向がさらに明瞭に。

Continue reading »



2016 SPARC Japan ワーキンググループキックオフミーティング

Written by bonohu in misc on 木 09 6月 2016.

今年度(2016年度)から国際学術情報流通基盤整備事業(SPARC Japan)セミナー企画ワーキンググループのメンバーとして関わることになり、そのキックオフミーティングで一ツ橋の国立情報学研究所へ。担当として2つのセミナーの企画運営に加わることに。 実は、3年前に第3回 SPARC Japan セミナー2013「オープンアクセス時代の研究成果のインパクトを再定義する:再利用とAltmetricsの現在」で話をしているこのセミナーだったのだが、流れが大分DBCLSで目指してきた文献やデータの流通を「交通整理」し、「知のめぐり」を良くする方向に生命科学分野だけでなく、全体的にそうなってきたから今回セミナー企画ワーキンググループメンバーとして呼ばれたのかなと。これまで蓄えてきた経験を活かして貢献していきたい。

Continue reading »


Homebrewと暮らす

Written by bonohu in misc on 月 06 6月 2016.

Homebrew便利だが、しばらく経つとソフトウェアがアップデートされていってローカルに持っているインデックス情報が古くなり、いろいろと不都合が起きるようになる。そこで、以下のコマンドを日課(or週課?)のように打って欲しい。 [shell] brew update -v brew upgrade -v [/shell] これをすることでインデックスが更新され、古くなったソフトウェアは自動的にアップデートされる。 そして、たまには [shell] brew cleanup -v [/shell] するとよい。古くなったバージョンのソフトウェアを消去してくれる。今、したら This operation has freed approximately 17.2G of disk space. と出て、17.2Gbyteディスクスペースが空いたらしい。

Continue reading »


localBLASTのblastdbcmdを使って配列エントリの特定の領域を取得する

Written by bonohu in misc on 木 02 6月 2016.

新規なモデル生物では、ゲノム配列が公開されていても多くの場合染色体ごとに配列が一本につながっていない。どうなっているかというと、scaffoldという単位でゲノム断片配列が記述されている。 そういった場合でも、コマンドラインで使用する際のNCBI BLASTに含まれる makeblastdb というプログラムを使ってインデックスを作成、blastdbcmd を使ってエントリ名(-entry)と領域(-range)を指定することで、その領域の塩基配列を取得することが可能である。

1
2
3
4
#!/bin/sh

makeblastdb -in hoge.fa -dbtype nucl -hash_index -parse_seqids
blastdbcmd -db hoge.fa -entry scaffold001 -range 2000-2500

このコマンドでは、一行目でhoge.faファイル(FASTA形式)に対してインデックスを作成、二行目でscaffold001の2000塩基から2500塩基までの配列を抽出する例を示している。通常の makeblastdb のオプションに加えて …

Continue reading »


'Mishima.syk #8'

Written by bonohu in misc on 日 29 5月 2016.

今回が8回目のMishima.syk(三島創(製?)薬勉強会)。三島で開催されたSPARQLthon44の次の日に開催をはたらきかけて、異分野交流を目論んでみた。みなさん、いろいろと忙しい中、複数人の人がその流れで参加してくれて、私のねらいは当たったかなと。ただ、誤算はハンズオンの講師の方が緊急入院…。一日も早いご回復を祈るばかりです。

自分は、本業の仕事をもっと知ってもらいたいと思って、直前のEBI出張と絡めて発表してみた。DRY解析教本の人、というイメージ以外にも公共データベースのなかのひとと思っていただけるようなイメージも強くできたかな!?自分の発表スライドは、今回新たに用意されたMishima.sykのgithubのサイトにアップしてみた。

今回の勉強会は、沼津駅北口のプレザヴェルデでの開催で、ちょうどその日がぬまづみなとの街バルの日ということもあって、懇親会は盛り上がりました。一次会として、みんなで適当なグループに(自然発生的に)分かれて、まずバルに参加。バルチケット3枚で、2時間半という設定が絶妙でしたね。そして、その後、バスク料理のお店、うさぎの木に集合して、2次会。素晴らしい采配だったかと。とても楽しかったですね。またみんなで …

Continue reading »


Trinityで転写産物を定量する

Written by bonohu in misc on 金 27 5月 2016.

Trinityの出力結果は、転写単位ごとの塩基配列のFASTA形式ファイルだが、付属のプログラム(align_and_estimate_abundance.pl)を使うと、転写量を見積もって定量、そして出力してくれる。TrinityのウェブサイトのTrinity Transcript Quantificationに詳細が書かれている。

homebrewでこれまで色々入れたMacOSX10.11.5の環境では、RSEM(RNA-Seq by Expectation-Maximization)を別途インストール(本家ウェブサイトからダウンロードの上、makeしてmake install)さえすれば以下のような感じのオプションで動いた。上記ウェブサイトに書かれている例ほとんどそのままだが、変更点は--aln_method bowtie2を指定してbowtie2を使うようにしたのと、--thread_countで使っていいthread数を環境に合わせて変えたぐらい。

[shell] /usr/local/Cellar/trinity/2.2.0/util/align_and_estimate_abundance.pl --thread_count 12 --transcripts trinity_out_dir/Trinity.fasta --seqType fq --left hoge_1.fq …

Continue reading »


Trinity on MacOSX

Written by bonohu in misc on 月 09 5月 2016.

de novo transcriptome assemblyをするソフトウェアの定番のTrinityがhomebrewで入って動くようになりました(v2.2.0)。これまでhomebrewには入っていたものの、私の環境ではきちんのインストールできないでいました。必要なときはその都度DDBJのスパコンにお世話になっておりました。 それが手元のMacで動くようになったのは素晴らしいことです。

brew install -v trinity

でインストールして、

Trinity --seqType fq --left hoge_1.fq.gz --right hoge_2.fq.gz --max_memory 16G --CPU 4

というコマンドで実行するだけです(ペアエンドの場合)。入力としてはペアエンドのファイル2つ、hoge_1.fq.gzとhoge_2.fq.gzで、見ての通りfastqファイルはgzip圧縮を解かなくても実行可能です。

また、シングルエンドの場合は、

Trinity --seqType fq --single fuga.fq.bz2 --max_memory …

Continue reading »


データベースとは1

Written by bonohu in misc on 水 04 5月 2016.

昨今、インターネット上には利用可能なデータリソースが溢れている。 データベース(DB)とは、生命の持つ情報を再利用可能な形で電子化したデータとして集めたものである。インターネットの普及とともにウェブインターフェースでDB本体へアクセスできるようになってきたことから、ウェブサイトのことがDBだと勘違いしている人も居るぐらいである。 SwissProt有償にします事件以後、いつかのサイトはさまざまな事情からユーザー登録を必要とするものが出てきて、さらにはそれを有償で提供するものも出てきた。しかしながら、生命科学のDBは現在でもその多くが誰でも無償でアクセスできるようになっている。それは、DBはつかってもらってなんぼ、だからである。論文のオープンアクセスと同じである。

「データベース生物学」カテゴリーとして、DBを使った研究に関して多くの人に伝えたい事を、今後不定期に私見を主体に書き記していこうと思う。

Continue reading »


圧縮したファイルで処理する

Written by bonohu in misc on 日 17 4月 2016.

NGSデータ解析の出発点は、シーケンサーやSRA (Sequence Read Archive)から取得したFASTQ形式のファイルなのは同じだろうが、これを圧縮しない(ファイル拡張子が.fqや.fastqのことが多いが、ようするにテキスト形式のファイル)まま、入力として使っているだろうか?配列解析プログラムの多くは、gzip圧縮やbzip2圧縮したファイル(ファイル拡張子は、それぞれ.gzと.bz2)を直接読み込めるようになっていることもあるので、まずファイル解凍するのではなく、圧縮形式から実行可能かどうか、確かめたほうがよい。解凍するプロセスがなくなり、作業効率が格段に向上するからだ。

  • v2.2.0のTrinity、入力のFASTQファイルがgzippedでも対応しているのを確認(20160506)

また、データ解析する際に中間ファイルが多数出てくる。そして、そのファイル群は多くの場合、テキスト形式のファイルで、ファイル圧縮もかかっておらず、サイズがでかい。それらをそのまま置いておくとHDやSSDの肥やしになるし、その都度ファイルを解凍してから処理するのも面倒だし。かといって消してしまうと後で困ることも。というわけで、どうせ圧縮するのなら前にも触れた並列版bzip2のpbzip2を使って圧縮し、ディスクスペースをどんどん空けていこう。

それらの中間ファイルをテキスト処理するには、例えばPerlだと以下の様な感じでちょっとコードを変えるだけで済む。参考まで。

[perl] my …

Continue reading »


行番号を付ける

Written by bonohu in misc on 月 11 4月 2016.

バイオの業界ではとくに、IDが重複していることがある。Rでの処理の場合、それでは入力が受け付けてもらえず実行できないことがよくある。そんな時には行番号を付け、それをuniqueなIDにしてしまうという解決策がある。その処理をRの内部ですることもあるが、今回はUNIXコマンドで行番号を付けてくれるnlコマンドを使う方法でやってみたので、書いておく。

[shell] nl -n ln -v 0 file.txt [/shell]

細かいオプションはここを参考にした。-n lnで左詰めに、-v 0で0からスタート(file.txtにヘッダ行が1行あったので)。

コマンド処理万歳。

Continue reading »


joinコマンドの出力をタブ区切りに

Written by bonohu in misc on 水 06 4月 2016.

joinというUNIXコマンドは、2つのファイルの同じ値のある行をjoinして、一行にまとめてくれるコマンド。

join -j 1 file1 file2

でタブ区切りテキストのfile1とfile2の一番左側のカラムの値が同じ行が結合されて出力される。

このコマンドのやってくれる事自体は大変便利なのであるが、デフォルトではその後の出力はスペース区切りとなり、ちょっと不便だった。これをタブ区切りに変えるやり方を知ったので、こちらにも転記しておく。

join -j 1 -t "$(printf '\011')" file1 file2

結合する前のファイルはsortされていないといけない。そうなっていないと join: file1:7: is not sorted というエラーが出る。

sort -u file1 > file1s
sort -u file2 > file2s

のようにsortしたファイルで処理するようにする。-uオプションを付けることでsortしたうえに重複した行も除くように。

あとjoinするのに用いるword(キー)もユニークでなくてはならない。すなわち、二回以上出てきてはダメ。実は今日やっていたのはこちらの制約に引っかかり …

Continue reading »