SPARQLthon41

2016年2月16,17日に理研和光にてSPARQLthon41に参加。引き続き、DBCLSで開発中の遺伝子発現目次AOEに公共遺伝子発現データベースArrayExpress(含むGene Expression Omnibus)に無いデータ(=Transcriptome sequenceによる遺伝子発現定量)を補完するのに取り組む。 SRA(Sequence Read Archive)のデータをSolrで検索できるようにしてもらったのを利用して、加えるべきデータセットを生成するスクリプト作成とか。メタデータを精査していくと、NCBIのXMLにはsubmission dateのデータがないことが発覚。その部分以外はAOEに載せるべきデータはとりあえず作成

  • studyから

    • PRJ (BioProject ID)

    • GSE (GEOのSeries ID)

    • xRP (SRAのProject: SRP,ERP,DRPから始まるID)

    • Title

  • experimentから

    • xRX (SRAのExperiment: SRX,ERX,DRXから始まるID)

    • PRJ

    • SAMN (BioSample ID)

    • Sequencer

  • sampleから

    • xRS (SRAのSample: SRS, ERS, DRSから始まるID)

    • SAMN

    • Organism

が、データが抽出出来ていないエントリも多いので、そこをさらに回収できるよう、今後検討していく予定。重複部分もあると思うので、それも除くことも今後の課題。

その後、理研時代の後輩のラボを見学させていただく。着々と研究を進められているようで、研究的な活動が停滞している自分と対照的で身につまされる思い。頑張らねば。[amazon template=thumbnail]


Written by bonohu in misc on 水 17 2月 2016.