Sashimi plot

Written by bonohu in misc on 木 06 7月 2017.

IGVをいじっていたら、右クリックメニューにSashimi plotなるものを発見。'sashimi plot'でPubmed検索しても1件しかでてこなかったが、'sashimi plots'にすると3件出て来て、その一つ(Quantitative visualization of alternative exon expression from RNA-seq data)によると、

a quantitative visualization of aligned RNA-Seq reads that enables quantitative comparison of exon usage across samples or experimental conditions

ということで有用そう。'sashimi plot'でPMC検索すると125件もヒットして来て、たしかに使われている印象。[caption id="attachment_3801" align="aligncenter" width …

Continue reading »


Good news

Written by bonohu in misc on 火 04 7月 2017.

長年の懸案だったGeneChipのソレとRNA-seqのソレをついにjoinできた。これでさらに精度良く、目的の遺伝子群が抽出できるはず。 また、それ以外にもいい知らせが。2017年後半戦、ますます楽しくなってきた。

Continue reading »


横方向のcat

Written by bonohu in misc on 月 03 7月 2017.

RSEMの結果ファイルからFPKM値で複数のサンプルの結果を抜き出したいとき。current directoryすべての結果ファイルに対してそれをしたい場合、以下のようなシェルスクリプトで。実行する前にFPKMというdirectoryを作成して、そこに処理したファイル群が書き込まれるようにする。

1
2
3
4
5
6
#!/bin/sh
mkdir FPKM
for f in *.genes.results;
 do echo $f > FPKM/$f
 cut -f7 $f >> FPKM/$f
done

RSEMの結果ではFPKM値は左から7番目のカラムに書き込まれているからそれをcut -f7で抜き出すようにする。 これらの結果だけではFPKM値のみで、遺伝子名とかの情報が入らなくなるので、左に来るべきファイルを以下のようなコマンドであらかじめ作っておく。

1
2
#!/bin/sh
cut -f1,2,3,4 hoge.genes.results > FPKM …

Continue reading »


十年一昔

Written by bonohu in misc on 土 01 7月 2017.

本日2017年7月1日で、ついにライフサイエンス統合データベースセンター(DBCLS)に来て丸10年が経った。あの日、まだプレハブの仮住まいだったDBCLSから歩いて本郷三丁目駅に向かい丸ノ内線に乗って東京駅に。まだ絶賛工事中だった東京駅地下の黒塀横丁に現在は同僚となっているN氏を呼び出し、すぐにDBCLSに参加するよう呼びかけたのが昨日のことのように思い出される。

生命科学研究を続ける上で、まずやらねばならないインフラ整備と思って、データベース統合化に関わってやってきたつもり。まずはDBをどう使ったら良いかを伝える手段として、当時ブレイクしそうだったYouTubeも利用した動画チュートリアル統合TVを始め、現在では約1200のコンテンツに。DB利用技術の普及を目的に統合データベース講習会AJACSを全国でやろうということで始めた。現在ではJSTがAJACSを引き継いでくれていて、それと合わせると日本の都道府県の半分以上で講習会をこの10年で実施して来たり。「教育」をやれと言われた文部科学省委託研究開発事業だった当初(2007-2010年度)の使命はある程度は果たせたかなと。

データベース統合化事業としてNBDCができてJST管轄となってからは、DBCLSは統合DBのR&Dとして、とくに自分は大規模データ利用技術開発に注力するように。この10年でものすごい進化を遂げた塩基配列解読手法によるデータのアーカイブ(SRA)の目次とその検索インターフェースづくりは、世界に3つしかない公式にSRAをアーカイブする機関の一つであるDDBJの協力の下、大きなプロジェクトとなりつつある。また遺伝子発現関係のウェブツールも、リファレンス遺伝子発現データ(RefEx)を作ろうという試みがだんだん大きくなって来て、理研FANTOMプロジェクトとの共同研究に発展。そして、遺伝子発現目次(AOE)もオミックスデータ目次に発展していく流れ。SayaMatcherでやっていたことをsuffix arrayで …

Continue reading »


2017年前半戦終了

Written by bonohu in misc on 金 30 6月 2017.

去年のこの日にも書いた振り返りエントリ。 2017年前半を振り返って。出張による外泊は、28泊と昨年前半の43泊より減少。出張を抑制、データ解析や物書きに取り組もうとしている姿勢が数字に出た感。これは、自分のやるべきことを方向付けて実行に移した結果と言えよう。これは、2017年年頭に書いた目標の一つで、出張外泊数を抑えることもその一つであった。 また、もう一つの目標であった、文章を書くことをさらに習慣づけtwitter以外の手段による情報発信は、2017年6月末の時点では地下に潜っているプロジェクトも含めて、順調に進んでいるかと。乞うご期待。

Continue reading »


Differential Expression Analysis using EBSeq

Written by bonohu in misc on 木 29 6月 2017.

RSEMによるRNA-seqの続き。RSEMデータ解析チュートリアルにある発現差解析方法。 rsem-run-ebseqとrsem-control-fdrはmake installしても/usr/local/bin以下にインストールされないので、注意。hoge1とhoge2の2つのサンプルの発現差を解析する場合、以下のように。 [shell] rsem-generate-data-matrix hoge1.genes.results hoge2.genes.results > hogeMat.txt ~/Documents/src/RSEM-1.3.0/rsem-run-ebseq hogeMat.txt 1,1 hogeMat.results ~/Documents/src/RSEM-1.3.0/rsem-control-fdr hogeMat.results 0.05 hogeMat.de.txt [/shell] 自分の環境ではRSEM関係のスクリプトは~/Documents/src/RSEM-1 …

Continue reading »


真夜中のaccept

Written by bonohu in misc on 水 28 6月 2017.

前日に投げてたrevisionへのrevisionが日本時間の夜に。共同研究者に取り急ぎ連絡しておくとすぐに返事が来て、re-resubmitできる状態になったので、思い切ってすぐに。そうしたら、これまた寝る直前に返事が来て、よく読むと基本accept。でもまだ小さな修正を言われて直さないといけないというオチつきだったが。

Continue reading »


参加者リストの集計

Written by bonohu in misc on 火 27 6月 2017.

先日参加した学会の参加者リストが公開されていた。ナンバリングされていたため、最後の行を見る限り255で、255名の参加者がいたらしいことがわかるものの、その内訳は分からない。テキスト版は提供されていないが、幸いこのページをコピー&ペーストすることで情報が取れそうな素直なページの模様。そうして得たファイルをlist.txtとして、自ら集計することにする。 参加者の国は左から5カラム目にありそうということで [shell] cut -f5 list.txt | less [/shell] で眺めて見る。確かに抽出できている。そこで、さらにワード別カウントをしてみる。

1
2
3
4
5
6
7
8
#!/usr/bin/perl
while() {
        my($word) = split;
        $num{$word}++;
}
foreach (sort keys %num) {
        print "$_t$num{$_ …

Continue reading »


研究データ利活用協議会公開シンポジウム ~オープンサイエンスを巡る世界の最新動向~

Written by bonohu in misc on 月 26 6月 2017.

標題のシンポジウムに参加して来た。研究データ利活用協議会(Research Data Utilization Forum(RDUF、読み方不明))とは、わが国における研究データの利活用を推進する活動を行う集まりとのこと。今回NBDC/DDBJセンター長の高木利久先生が話すし、塩基配列DBからデータを再利用して研究している我が身としては関係あるかな、ということで出てみたが、参加してみるとそれ以外にも多面的に関わりがあった。 まずDOI(Digital Object Identifier)。普段、論文の引用だけでなく、最近では統合TVの動画に対しても個別にDOIがつけられてる。そのDOIを割り振ってくれているのが、今回の集まりの事務局のジャパンリンクセンター(Japan Link Center(JaLC; じゃるく、と読むらしい))とのことで。日本でDOIを割り振れるのはここだけとのこと。 また、先週SPARC JAPANのキックオフミーティングでご一緒した人が数多く参加していたり。参加していたというよりは、演者であったり、ディスカッションリーダーだったり、活躍されていた。 最後のグループディスカッションでは、「データレポジトリの企画運営、メタデータ検討」のグループに。もっといろいろ話しを聞きたかったが、時間の制約でそれも叶わず …

Continue reading »


意図しないプリンター出力

Written by bonohu in misc on 土 24 6月 2017.

出張先でプリンターから出力する必要があり、プラインター設定をちゃらっとして出力したものの。A4に打ち出したはずなのに90度回転したレイアウトで打ち出される。レイアウト設定やそれ以外の設定もチェックしてもだめ。その文書がまずいのではと思って他の論文PDFを印刷してみても同様。しかし、他の人はちゃんと打ちだせるようなので、悪いのは自分のコンピューターの設定ということでいろいろ調べた結果。

macOSのプリンター設定画面

このプリンターを追加する設定画面で「プロトコル」にIPP (Internet Printing Protocol)を選んでしまったからで、LPD (Line Printer Daemon) を指定するとうまくいくということが判明。設定重要。

Continue reading »


SPARQLthon57 day2

Written by bonohu in misc on 金 23 6月 2017.

2日目は開発しているserviceの検索インターフェースいろいろ打ち合わせをいくつか。この会では有識者がいて、そういった話を脇で聞いてくてて、「車輪の再発明」をせずにすむようなツッコミをいただくこと多数なのが醍醐味。さらにそこからこれまで知らなかった意外な有用情報が出てくる。今回の自分の場合、togogenomeの使い方を勘違いしていたことを知るなど。ちゃんとヒトversionが機能していたのだ。例えば、togogenomeのHIF1Aのエントリ。 また、SPARQLのexamplesを試して「写経」するなど。習うより慣れよ、ということで。SPARQLthon感の高まり。

Continue reading »


SPARQLthon57 day1

Written by bonohu in misc on 木 22 6月 2017.

AOEでの検索結果から取得すべきSRAのRUNのIDを探し当ててSRAファイルを取得し、それらを並列にFASTQに変換して、トリミング後、発現定量して、発現差データ作成するのを並行に進めつつ、pfastq-dumpのバグ出しから。

Continue reading »



並列版 fastq-dump

Written by bonohu in misc on 火 20 6月 2017.

探したらやはりあった、並列版のfastq-dump。これはpythonによる実装でインストールがちょっと…。さらに探したら、身近にbashでのimplementationを公開している方がいたw。こちらのほうがインストールが楽じゃないかと。そういうわけで、

pfastq-dump --threads 8 --outdir fq/ DRR045547.sra

てな感じで。pfastq-dumpはcurrent directoryに一時ファイルを作る。HD上で実行するとそれはおそくなるかもしれないので、SSD上のどこか、たとえば/tmp/などを指定したら早くなるかもということで。< ペアエンドのファイルに対しては、以下の例のように--split-filesを指定。

pfastq-dump --threads 6 --outdir fq/ DRR068893.sra 
--tmpdir /tmp/ --split-files

ベンチマーク取っていないのでどれぐらい早くなったかは現状不明。でもpbzip2と同じく、普段使うコマンドとしてfastq-dumpに置き換えて使っていくつもり。

Continue reading »


HIF-1-mediated suppression of mitochondria electron transport chain function

Written by bonohu in misc on 月 19 6月 2017.

confers resistance to lidocaine-induced cell death wordpress_id: 3660 categories:


2006年3月にがんとハイポキシア研究会に初めて出てからすでに10年以上経ったが、ようやくこの研究会つながりの共同研究による論文(doi: 10.1038/s41598-017-03980-7)がpublish!詳しくはDBCLSニュースおよび関西医科大学のプレスリリースを参照。 がんとハイポキシア研究会で知り合ったさまざまな方に研究協力的な活動は細々としてきてはいたが、これまでは論文に貢献するまでには至らず。今回、SRAにあるリードの再利用データ解析というところでやっとそのレベルにまで到達。具体的には、SRAにあるRCC4­細胞VHL+/-のRNA-seqデータを再解析して、実験データのsupport evidenceとした。詳しくはこちらを。初めてがんとハイポキシア研究会に参加した際、私の口頭発表の座長をしてくれたのが今回の論文のlast & corresponding authorなのは単なる偶然ではないだろう。 重要なのは、私がデータ解析を全て担当したわけでなく、DRY解析教本でRNA-seqデータ解析法を勉強してもらって実際にやっていただき、わからなかった点と最終的な可視化をコンサルした点。つまり、私がすべてのデータ解析から引き受けてやったわけではない。この種の共同研究スタイルならこちらは破綻せずスケールしそうなので、続けてやっていきたい …

Continue reading »


道具の研磨

Written by bonohu in misc on 日 18 6月 2017.

日頃よく使う「道具」のメンテナンス。システム標準のだと効率が悪かったりするので。 このブログでも何回か出てきたgzipとbzip2の並列版、pigzとpbzip2が前の名前で呼び出しても使われるように/usr/local/binにリンク張ったり。

またGNUのtarをgtarではなく、tarという名前で使うやり方、 [shell] brew install -v gnu-tar --with-default-names [/shell] でtarも置き換えてしまったり。もちろん、rsyncも。 [shell] brew install -v rsync [/shell] ファイル操作は普段からよく使うので、「研いで」おきたい、ある程度は(これが重要)。

Continue reading »


rsem-calculate-expression for human

Written by bonohu in misc on 金 16 6月 2017.

ようやく、RSEMの実行。bowtie2でだが、以下のコマンドで。 [shell] time rsem-calculate-expression -p 12 --paired-end --bowtie2 --bowtie2-path /usr/local/bin --estimate-rspd --append-names --output-genome-bam hoge_1.fq hoge_2.fq rsem-bowtie2/human rsem_out/hoge [/shell] -pに12設定したが意外に時間がかかった。

real    333m27.062s
user    1795m57.676s
sys     98m26.410s

実時間で約5時間半。そうでなかったらuser+sysで約31.5時間だから、並列化万歳といえよう。。

Continue reading »


rsem-prepare-reference for human

Written by bonohu in misc on 木 15 6月 2017.

リファンレンスゲノムとGTFの両方Ensemblから調達。実行時点で最新のEnsembl89を使って検索用のリファレンス作成。 [shell] time rsem-prepare-reference --gtf Homo_sapiens.GRCh38.89.chr.gtf --bowtie2 --bowtie-path /usr/local/bin Homo_sapiens.GRCh38.dna.toplevel.fa rsem-bowtie2/human [/shell] 実行時間はわりとかかる。

2406.83s user 40.73s system 99% cpu 40:51.46 total

これと並行してやっていた実行するためのサンプル配列を取得して、FASTQをdumpして、トリミングするほうがずっと時間結構かかるという罠。

Continue reading »


GFF2GTF

Written by bonohu in misc on 水 14 6月 2017.

RSEMを実行する際には、リファレンスを作成する必要がある。それをやるrsem-prepare-referenceコマンドは、GFF(version3)はダメで、GTFしか受け付けない模様。しかもこのGTFのチェックが厳しく、大文字小文字も区別するようだ。その辺を編集しないといけないGTFファイルもあったり。

GTFはGFFのversion2ということであるが、現在よく配布されているGFFはversion3のそれであることが多いようで、違うのである。そこでその変換スクリプトがないかなとググったら、やっぱりあった。

https://github.com/zachcp/ea-utils/blob/master/clipper/gff2gtf

このスクリプトで変換したもので実行するとうまくいった!

(後日談)EnsemblではGFF(version3)以外にGTFでも公開されていることにその直後に気づいた…。最初からこちらを使えばよかった…。

Continue reading »


RSEM with bowtie2

Written by bonohu in misc on 火 13 6月 2017.

RSEM (RNA-Seq by Expectation-Maximization)は、内部からaligner programを呼び出して使うタイプの発現定量プログラム。 しっかりしたチュートリアルが用意されていて、それに従って実行。 まずはRSEMで使うリファレンスを準備。

rsem-prepare-reference --gtf ref/hogenome.gtf \
--bowtie2 --bowtie2-path /usr/local/bin \
ref/hogenome.fa ref/hogenome_RSEM_ref

alignerとしてSTARも選べるが、ゲノム配列が発展途上の非モデル生物のゲノム配列ではSTARのindex作成がうまくいかなかった(メモリ不足になる)ため、今回はチュートリアル通り、bowtie2で。 そして、実行。

rsem-calculate-expression -p 8 \
--bowtie2 --bowtie2-path /usr/local/bin \ 
--estimate-rspd \
--append-names \
fq/fuga1 …

Continue reading »


MacPro不具合

Written by bonohu in misc on 月 12 6月 2017.

週末火を落として十分に冷却して見たものの、やはり起動が途中で止まる。そして、shiftを押しながら起動のセーフモードなら立ち上がるのだが、普通に立ち上がらないという状況。 いろいろ調べて見て知った起動時にDを押し続けると立ち上がるApple Hardware Testをやってみたが、とくに異常なし。 そういわけで、最終手段としてcommand + R でリカバリーモード起動して、再インストールしてみた。

Continue reading »



transdecoderがコケる

Written by bonohu in misc on 木 08 6月 2017.

しばらくぶりにtransdecoderを実行したところ、TransDecoder.Predictコマンドでコケた。 エラーメッセージ曰く、

% TransDecoder.Predict -t Trinity.fasta
CMD: /usr/local/Cellar/transdecoder/3.0.1/libexec/util/get_top_longest_fasta_entries.pl Trinity.fasta.transdecoder_dir/longest_orfs.cds 5000 > Trinity.fasta.transdecoder_dir/longest_orfs.cds.top_longest_5000
CMD: /usr/local/opt/cd-hit/bin/cd-hit-est -r 1 -i Trinity.fasta.transdecoder_dir/longest_orfs …

Continue reading »


ゲノムリスト

Written by bonohu in misc on 水 07 6月 2017.

解読されたゲノムデータのDBとしては、Genome OnLine Database (GOLD)が有名だが、この種のデータの本家NCBIのそれもかなり充実しているのを先日の学会参加で知った。 Genome Listがそれ。Organism/Name以外に、Kingdom, Group, Subgroupのほか、(Genome) Size, Chr(染色体数), Organelles, Plasmidsの数のほか、Assemblyの数がメタデータとして表示されている。 各種メタデータでのsortがクリックだけで可能で、例えばヒトよりもゲノムサイズが大きな生物種はわずか数クリックでリストが得られ、しかも絞り込んだ結果をタブ区切りやコンマ区切りテキストでダウンロードできる。 さすがにその生物種の和名までは出ていないが…。

Continue reading »


GATKのライセンス変更

Written by bonohu in misc on 火 06 6月 2017.

ちょっと前の話題になるが。GATKのバージョン4がGATKのブログで紹介された。それと同時に、GATK4 is completely open sourceというブログエントリもポストされ、GATKのラインセンスが変更となるようである。このポストのコメントを見る限り、商用でも有償ライセンスが不要になる模様。 ま、普通にアカデミアの研究で使っている人には変わりないわけであるが、オープンソースになったことでブラックボックス感が薄れ、また必要であれば自分で改変することも可能となる点では大きな変化である。Congratulations!

Continue reading »


データベースを作るということ

Written by bonohu in misc on 土 03 6月 2017.

リトリートに参加してちょっと引っかかったことがあった。データベース(DB)を作るということに関する認識の違いである。 「DBを作る」というのは、おそらくこれまでのやり方では解釈できないぐらい多くのデータを集めたから、なのだろうが、それ自身が目的になってしまってはいないだろうか? そういったDBは、どう使うかを考えて作る場合とそうでない場合がある。後者のような場合には、そういったデータをインターネット上で公開したい、ということであろう。それならTogoDBを使えばできる。そのためにライフサイエンス統合データベースセンター(DBCLS)でこういったツールが作成され、サービスされているわけである。DBCLSはこのTogoDBのような研究開発を専門とするセンターであり、個別のDB作成を代行するセンターではない。 前者のような場合にはどう使うかを教えてくれないことも多い。まあ、そりゃそうだろうけど、それなのにどうしたらいいか教えてくれ的なことを言われたこともあり、大変困惑した経験がある。ひょっとしたら、独自の検索やかっこいいウェブサイトを作りたい、という意図もあるのかもしれない。はたまた、利用可能な公共DBとリンクしてマッシュアップしたコンテンツを、ということもあるだろう。それらを個別に考えるのまではさすがに難しい。2010年代の今は、そこまで含めて生命科学の研究であろう。 仮に作ったとしてもその後の更新はどうするのか?セキュリティ対策も継続してやっていかなければならない。つまり、基本引退するまでそのDBと付き合う覚悟が必要なわけである。生命科学系DBアーカイブというサービスがあり、スプレッドシート型のデータやそれに対応した画像データ等を永代供養してくれるサービスがある。ただ、この場合のDBはそれらの型が決まったデータであって、独自に作り込んだウェブサーバごと …

Continue reading »


NIG retreat 2017 2日目

Written by bonohu in misc on 金 02 6月 2017.

引き続き。研究支援としてやっている事業に対して、事あるごとに説明して理解を深めてもらういいチャンスだった。やはり、「看板」として、論文をコンスタントに出しているのが効いている気がする。あと、DRY解析教本の執筆・監修やったのも地味に知られているっぽい。 ポスター発表に来てくれた人も前回より断然多く。そのほとんどが学生さん。あとで「あれが契機だった」という日が来るに違いない。

Continue reading »


NIG retreat 2017 1日目

Written by bonohu in misc on 木 01 6月 2017.

帰国して次の朝から遺伝研リトリートへ。 情報発信していることは思っている以上に見られていることが判明(このブログもw)。もっと研究交流の余地があることもわかった。今日のdiscussionが今後のcollaborationにつなげられればいいな。

Continue reading »


PAG ASIA 2017 3rd day

Written by bonohu in misc on 水 31 5月 2017.

最終日。やはり、来たら来ただけ、学ぶことがあった。PAG終了後同じホテルで開催された 2017 PacBio APAC User Group Meetingもフライトの時間の関係で最初だけしか出れなかったものの、いろいろと学ぶことだらけ。

学而時習之 不亦説乎

Continue reading »


PAG ASIA 2017 2nd day

Written by bonohu in misc on 火 30 5月 2017.

海外なのに時差が全くないのは素晴らしい。シャワートイレだし、メシマズじゃないし。信号もそっくりだが、右側通行なので車にはぐれぐれも注意して。 そして、自分の発表が午後イチに。思ったよりも早めに終了してしまった感。DORとの連携を進めねば。

Continue reading »