bamの切った貼った

Reference genome配列に対するmappingの結果ファイル、bam。そこから特定の染色体などの場所を絞り込んだデータだけを作成する場合に以下のsamtoolsのオプションが大変有効です。 複数のbamファイル(1.bam 2.bam 3.bam)をmerge(結合)して、all.bamというファイルにしたい場合は以下のコマンドで。

[shell] samtools merge all.bam 1.bam 2.bam 3.bam [/shell]

all.bamファイルをsortして、それを上書きする場合。

[shell] samtools sort all.bam all [/shell]

IGVで閲覧するなどindexが必要な場合に。indexファイルとして.baiな拡張子のファイルが作成されます。

[shell] samtools index all.bam [/shell]

逆に切り出し。実はこれをやるためにもindexファイルが必要なようでした。all.bamファイルからchr1の領域をchr1.bamという名前のファイルで生成する場合。

[shell] samtools view -b all.bam chr1 > chr1.bam [/shell]

追記(20160516): 最新のバージョンのsamtoolsは複数のCPUを使った並列化が実装され、高速化されている。以下のブログエントリを参照。


Written by bonohu in misc on 月 08 12月 2014.