SPARQLthon41
2016年2月16,17日に理研和光にてSPARQLthon41に参加。引き続き、DBCLSで開発中の遺伝子発現目次AOEに公共遺伝子発現データベースArrayExpress(含むGene Expression Omnibus)に無いデータ(=Transcriptome sequenceによる遺伝子発現定量)を補完するのに取り組む。 SRA(Sequence Read Archive)のデータをSolrで検索できるようにしてもらったのを利用して、加えるべきデータセットを生成するスクリプト作成とか。メタデータを精査していくと、NCBIのXMLにはsubmission dateのデータがないことが発覚。その部分以外はAOEに載せるべきデータはとりあえず作成。
-
studyから
-
PRJ (BioProject ID)
-
GSE (GEOのSeries ID)
-
xRP (SRAのProject: SRP,ERP,DRPから始まるID)
-
Title
-
-
experimentから
-
xRX (SRAのExperiment: SRX,ERX,DRXから始まるID)
-
PRJ
-
SAMN (BioSample ID)
-
Sequencer
-
-
sampleから
-
xRS (SRAのSample: SRS, ERS, DRSから始まるID)
-
SAMN
-
Organism
-
が、データが抽出出来ていないエントリも多いので、そこをさらに回収できるよう、今後検討していく予定。重複部分もあると思うので、それも除くことも今後の課題。
その後、理研時代の後輩のラボを見学させていただく。着々と研究を進められているようで、研究的な活動が停滞している自分と対照的で身につまされる思い。頑張らねば。[amazon template=thumbnail]