SPARQLthon35
2015/08/10-11は、DBCLS三島というか、DDBJのある国立遺伝学研究所にてSPARQLthon35回目。前回の続きで、SRAに登録されているものの遺伝子発現データベースに登録されていないエントリがどれぐらいあるかの調査。予想に反して多かったので、別ソースでIDの対応が付けられないか、SRAをやっている同僚の仲里さんに手伝ってもらって対応をとってみた。
前回、5234ものRNAseqのSRAエントリがBioProjectID単位でArrayExpress(GEO)に載っていないというショッキングな結果だったが、そのうちいくつかは今回の名寄せで補われたものの、やはりかなりの数ある。BioProjectIDの発行元別にその結果を以下に示す。
-
PRJN: 4728 -762 = 3966
-
PRJE: 337 - 48 = 289
-
PRJD: 169 - 0 = 169
その一方、ChIPseqのほうは、多くが今回の名寄せで対応が着いた模様。こちらもBioProjectIDの発行元別に。
-
PRJN: 492 - 354 = 138
-
PRJE: 45 - 19 = 26
-
PRJD: 55 - 0 = 55