UTRの抽出

モデル生物ではきっちりアノテーションがなされ、UTR(UnTranslated Region)の配列抽出とか、EnsemblのBiomartを使えば簡単にできる。Ensemblにない生物種でも、Ensembl Genomesのそれを使えば良いのであるが、こちらの場合生物種によってはUTRのアノテーションがなくて抽出できないことがある(あった)。アノテーションがきっちりなされていない非モデル生物のUTRの配列抽出は大変である。 しかしながら、簡単にやる方法があった。それなりにdeepなRNA-seqデータがある場合に、であるが。それはTrinityによるde novo transcript assemblyとその結果を元にOpen Reading Frame(ORF)を予測するTransdecoderによるアノテーションを利用するというものである。Transdecoderを実行(過去のブログエントリ参照)した後に出て来る結果のGFF3形式の出力をBEDファイルとして保存して、それを元に部分配列抽出する。 [shell] grep UTR Trinity.fasta.transdecoder.gff3 > UTR.gff3 bedtools getfasta -fi Trinity.fasta -bed UTR.gff3 -fo UTR.fasta [/shell] ここで凄いと思ったのは2行目のbedtoolsの使いこなし。これのgetfastaというコマンドを使うと、FASTA形式の配列ファイル(Trinity.fasta)と、それに対するBED/GFF/VCF形式のファイル(今回の場合UTR.gff3)によるアノテーションを入力として、その部分配列がFASTA形式(UTR.fasta)で抽出できる。こんなオプションがあるとはこれまで知らず、たいへん勉強になった。


Written by bonohu in misc on 水 03 5月 2017.