Make GEA Searchable from AOE
GEAをAOEから検索可能に
前にも触れた遺伝子発現データのアーカイブ、Genomic Expression Archive (GEA)であるが、公開データも出てきている。
それらのデータはEBIのOmicsDIからもいずれ検索可能になるらしいが、先回りしてAOEからできるように2019年1月のSPARQLthon76(DBCLSで月1回やっている統合DB関連のミニハッカソン)の自分の課題として取り組んだ。
基本的にArrayExpressと同じフォーマットのデータがGEAから公開されているということでArrayExpressと同様にparseしたものの。
やはりメタデータの記述が若干異なっているようで、全く同じにとはいかず。
一部手動で書き換えてなんとか検索可能に。
簡単にいうと、Last update
が取れなくなっていて、これが致命的エラーに。
よく見るとCommentに書かれているようで、そこからデータを取るように変更する必要あり。
Bioproject
に関しても同様。
先方と相談して直してもらうか、こちらで対処するか決めて、先に進めていこう。
それ以外のindex更新スクリプトも細々としたところを直して、GitHubにpushするなども。 より検索に引っかかるエントリを増やすため、更新ワークフローの延伸にも取り組んでいかねば。