difffのチカラ

論文reviseの際などには、某論文のコピペの可能性を示唆したあのツールがもちろん役に立つ。しかしながら、以下の様な行番号が付いた文書データしか手元になく、それと新しい版を比較せねばならないことがある。

1 High-throughput sequencing technology, also called next-generation sequencing (NGS), 2 has the potential to revolutionize the whole process of genome sequencing, 3 transcriptomics, and epigenetics. Sequencing data is captured in a public primary 4 data archive, the Sequence Read Archive (SRA).

直接コピーして貼り付けると、内容は同じでも行番号が邪魔して異なっていると判断されてしまう。そこで上記の内容をtext.txtという名前のファイルに保存し、以下の様なPerlのワンライナーを実行すると、

[shell] perl -i~ -pe 's/^d+s+//' text.txt [/shell]

行頭の数字とそれに続くスペースが削除され、同じ名前のファイル(text.txt)に書き込まれ、元のファイルはtext.txt~という名前のファイルにバックアップとして移る。元のファイルに戻したいときは以下のように。

[shell] mv text.txt~ text.txt [/shell]

そして、その得られた結果のファイルを開いて、最新版とデュフフすれば変更点だけが綺麗に浮かび上がるわけです。


Written by bonohu in misc on 火 19 8月 2014.