今日の捨てコード
一対一対応のデータなら対応付けは簡単。しかし、実際の研究活動においてはそんなことばかりでなく、特定のIDに対応づくデータが複数あり、それをまとめて表示することが必要な場合はままある。例えば、特定の遺伝子にアノテートされた機能情報などがそれである。1つの遺伝子について機能情報が綺麗にまとまっていれば対応付けも楽なのだが、そんなことはない。
そこで以下のような捨てコードで、同一のIDにアノテートされた機能情報をまとめて人間が見やすい**かたちに整形する必要があったりする。入力とするデータはID順にsortされている必要はないが、重複があるとその分、出てきた結果が見づらくなるので [shell] sort -u go_annotation.txt > go_annotation-unique.txt [/shell] などとして重複を除いておくべき。
1007_s_at ATP binding 1007_s_at collagen binding 1007_s_at metal ion binding 1007_s_at protein binding
のような入力データを処理して
1007_s_at ATP binding / collagen binding / metal ion binding / protein binding
のように同じIDのものは一行にまとめてくれるようにするには以下のようなPerlスクリプトで実現可能である。
[perl]
while(
もちろん、この結果出てきたデータだけで何かができるわけでなく、その他のデータと合わせることでこの種のデータが研究者によるcurationの際に威力を発揮するということは言うまでもない。