Registering to DB for non-model RNA-Seq

非モデル生物RNA-Seqの際のDBへの登録

RNA-Seqデータの公共データベースへの登録手続きは、「RNA-Seqデータ解析 WETラボのための鉄板レシピ」にも載っているが、これはモデル生物が想定されて書かれている。

しかしながら、非モデル生物RNA-Seqの際には同じでない。 以下のTSAへの登録が入ってくる。

  1. Sequence Read Archive (世界的にはSRA,DDBJではDRAという)
  2. Transcriptome Shotgun Assembly (TSA)
  3. Genomic Expression Archive (GEA)

の順番に登録することがポイント。 SRAと一言で書いたが、実際には、SRAの配列データに加えてBioProjetとBioSampleへの登録も含まれる。 馴れればSRAに必要なデータの入力とvalidation自体は1日でできるが、SRAのIDを発行してもらうところは自動でなく、DDBJの方に対応してもらう必要がある。

間違えてSRAのIDをゲットしたあと、GEAを先に始めてしまって、先方にお手数をかけてしまうことに。 すみませんすみません。

GEAに登録する発現data matrixにはTSAのIDも入れる必要があるのをお忘れなく。 その発現data matrixファイルのMD5値も登録データであるSDRF(Sample and Data Relationship Format)ファイルに必要であるが、そのカラムを入れる変更したら、当然MD5値も変更になるわけで。

(2022年2月21追記) そして、GEAも発行されて準備完了。 始めてから14日=2週間。 しかし、これでも早い方じゃないかと。


Written by Hidemasa Bono in misc on 土 19 2月 2022.