Registering to DB for non-model RNA-Seq
非モデル生物RNA-Seqの際のDBへの登録
RNA-Seqデータの公共データベースへの登録手続きは、「RNA-Seqデータ解析 WETラボのための鉄板レシピ」にも載っているが、これはモデル生物が想定されて書かれている。
しかしながら、非モデル生物RNA-Seqの際には同じでない。 以下のTSAへの登録が入ってくる。
- Sequence Read Archive (世界的にはSRA,DDBJではDRAという)
- Transcriptome Shotgun Assembly (TSA)
- Genomic Expression Archive (GEA)
の順番に登録することがポイント。 SRAと一言で書いたが、実際には、SRAの配列データに加えてBioProjetとBioSampleへの登録も含まれる。 馴れればSRAに必要なデータの入力とvalidation自体は1日でできるが、SRAのIDを発行してもらうところは自動でなく、DDBJの方に対応してもらう必要がある。
それから3日後の昨日2月10日にIDがお届けされていた。なかのかたがた、大変おつかれさまです、ありがとうございました。
— トクニンティヌス@下り坂46(ニンキアリ) (@bonohu) February 11, 2022
丸2年ほど、ご無沙汰しております。今後ともよろしくお願いいたいます。
#DDBJ #SRA https://t.co/7LNQU4IlKK
間違えてSRAのIDをゲットしたあと、GEAを先に始めてしまって、先方にお手数をかけてしまうことに。 すみませんすみません。
先にTSAを登録すべきであった。変態的&業界specificシェル芸で
— トクニンティヌス@下り坂46(ニンキアリ) (@bonohu) February 14, 2022
% grep ^\> hoge.fa | awk '{ print $1}' | perl -pe 's/^\>//' > https://t.co/lF24PdgwMp
でのIDリストの抽出と
% perl -i~ -pe 's/^(\>\S+).+/\/\/\n$1/' hoge.fa
して先方がお望みのFASTA形式にファイル成形(要末端処理)するなど https://t.co/ZaYI0AABV3
GEAに登録する発現data matrixにはTSAのIDも入れる必要があるのをお忘れなく。 その発現data matrixファイルのMD5値も登録データであるSDRF(Sample and Data Relationship Format)ファイルに必要であるが、そのカラムを入れる変更したら、当然MD5値も変更になるわけで。
(2022年2月21追記) そして、GEAも発行されて準備完了。 始めてから14日=2週間。 しかし、これでも早い方じゃないかと。