CRAMによる圧縮効率

昨日のエントリの続きで、複数のBAMファイルをCRAMに変換し、そのサイズを比べてみた。

それぞれのファイルサイズを同一行に来るように1行ごとにデータを作って(cram.txtとbam.txt)、その圧縮率をちゃらっとawkで計算。 [shell] paste cram.txt bam.txt | awk '{ print $1,$2, $1/$2 }' [/shell] 結果が以下の通り。見ての通り、3カラム目がその圧縮率となる。

5660626395 9438014937 0.599769
4654129817 7896095631 0.589422
5087289649 8493424101 0.598968
5002310872 8382697420 0.596742
4117487398 7031097146 0.585611
4507556734 7565563208 0.595799
502823996 895530732 0.561482
451008499 825798179 0.546149
495727098 869175956 0.570341
5293729337 8856234441 0.59774
4380038661 7457202614 0.587357
4747909097 7958874556 0.596555
6383035386 10597810022 0.602298
5284124888 8901859669 0.593598
5755939554 9562227179 0.601945

ただ近所のスペシャリストによれば、Quality valueが可逆かどうか、が問題になりそうらしい。一応、それぞれのファイルをさらにSAMに変換して目視したところ違いはない模様。完全な比較はしていないからなんとも言えないところだが。


Written by bonohu in misc on 木 20 4月 2017.