AOE layer the 3rd
AOEの外堀
SRAにRNA-seqとして登録されているものの、NCBI Gene Expression Omnibus(GEO)やEBI ArrayExpress(AE)といったいわゆる遺伝子発現データベースに登録されていないデータを抽出してAOEに突っ込んだ。 DDBJ Genomic Expression Archive(GEA)は先月末の作業で取り込まれるようにしたが、今回さらに懸案だったのを対処した形。 お堀に例えるなら、AEとGEA分が内堀、GEOで中堀ときて、SRAにあるRNA-Seqデータを取り込んで、外堀を埋めた感じである
全く僅かな数ではなく、Seriesカウントで約一万ちょいある。 これらのデータは一体なんなのか。 実はdbGaPやEGAに入っているエントリでメタデータだけあるだけなののか、それとも…。 個別のエントリをガッツリみていかないとわからないが、取りこぼしはこれでないい言うレベルまできた感。
裁きの日は近い。