Trinityで転写産物を定量する

Trinityの出力結果は、転写単位ごとの塩基配列のFASTA形式ファイルだが、付属のプログラム(align_and_estimate_abundance.pl)を使うと、転写量を見積もって定量、そして出力してくれる。TrinityのウェブサイトのTrinity Transcript Quantificationに詳細が書かれている。

homebrewでこれまで色々入れたMacOSX10.11.5の環境では、RSEM(RNA-Seq by Expectation-Maximization)を別途インストール(本家ウェブサイトからダウンロードの上、makeしてmake install)さえすれば以下のような感じのオプションで動いた。上記ウェブサイトに書かれている例ほとんどそのままだが、変更点は--aln_method bowtie2を指定してbowtie2を使うようにしたのと、--thread_countで使っていいthread数を環境に合わせて変えたぐらい。

[shell] /usr/local/Cellar/trinity/2.2.0/util/align_and_estimate_abundance.pl --thread_count 12 --transcripts trinity_out_dir/Trinity.fasta --seqType fq --left hoge_1.fq.gz --right hoge_2.fq.gz --est_method RSEM --aln_method bowtie2 --trinity_mode --prep_reference --output_dir rsem_outdir [/shell]

pair-end sequenceでない場合、--left ... --right ...の部分を、--single hoge.fq.bz2などと指定すると動作した。蛇足ですが、このプログラムもまた、FASTQファイルは圧縮したままのファイル名を指定するだけで正常に動く模様。


Written by bonohu in misc on 金 27 5月 2016.