SPARQLthon53 day2

昨日でデータは取ってこれるようになったので、それを整形して必要なデータだけ抽出できるように。

まずは、BioProject(PRJから始まるID)とGEO Series(GSEから始まるID)のIDを抽出して、後者はGSE以下の数字をE-GEODから始まるArrayExpressのそれに変換して。これまでのAOEに使っていたタブ区切りテキストに1カラム追加して、このBioProjectIDが付くものは付けたデータを作成。やっとAOE2.0用の入力ファイルが完成!

そして、ずっと取り組んできているArrayExpress(そしてGEO)に入っていない、RNA-seqなデータを追加する方。追加するために必要なメタデータの取得方法確立、そして重複エントリを削る判定基準を作成するなど、まだまだ越えるべきハードルがあって、すぐにはできないものの、見通しはついてきた感。次回も頑張ろう。


Written by bonohu in misc on 金 17 2月 2017.