SPARQLthon34

2015/07/16-17の両日は、SPARQLthonの34回目でDBCLS柏。前回からやっている、SRAに登録されているものGEOやArrayExpressといった遺伝子発現データベースに載っていないデータをリストアップしてみようの続き。比較するために、BioProjectのIDに変換して同じだたかどうかを判定。データゴニョゴニョは前回でやっていたので、それの解釈が主な今回の仕事。まずは、その重なりをVenn図で可視化

venn_result25079

ArrayExpress(GEO)にない5234エントリ(5226+8)のうち(RNAseqの方)、BioProjectIDの由来で分類。すなわち、NCBI由来のPRJN、EBI由来のPRJE、DDBJ由来のPRJD別に。RNAseqの方は、

  • PRJN: 4728

  • PRJE: 337

  • PRJD: 169

同様にChIPseqの592エントリでは

  • PRJN: 492

  • PRJE: 45

  • PRJD: 55

結構抜けているし、それはDDBJ由来というよりは…という結果に。ちょっと抜けていると判定されたデータが本当にそうなのか、大規模に調べてみる必要がありそう。RNAseqデータ、ArrayExpress(GEO)にはないけど、「SRAにはありまぁす」という結果になるかもしれない。


Written by bonohu in misc on 金 17 7月 2015.