bamの切った貼った
Reference genome配列に対するmappingの結果ファイル、bam。そこから特定の染色体などの場所を絞り込んだデータだけを作成する場合に以下のsamtoolsのオプションが大変有効です。 複数のbamファイル(1.bam 2.bam 3.bam)をmerge(結合)して、all.bamというファイルにしたい場合は以下のコマンドで。
[shell] samtools merge all.bam 1.bam 2.bam 3.bam [/shell]
all.bamファイルをsortして、それを上書きする場合。
[shell] samtools sort all.bam all [/shell]
IGVで閲覧するなどindexが必要な場合に。indexファイルとして.baiな拡張子のファイルが作成されます。
[shell] samtools index all.bam [/shell]
逆に切り出し。実はこれをやるためにもindexファイルが必要なようでした。all.bamファイルからchr1の領域をchr1.bamという名前のファイルで生成する場合。
[shell] samtools view -b all.bam chr1 > chr1.bam [/shell]
追記(20160516): 最新のバージョンのsamtoolsは複数のCPUを使った並列化が実装され、高速化されている。以下のブログエントリを参照。