DDBJ 30周年記念シンポジウム

2017年国立遺伝学研究所 国際シンポジウムとして、DDBJ 30周年記念シンポジウムが三島にて。

Creative Commons License
ぼうのブログ by http://bonohu.jp/blog is licensed under a Creative Commons Attribution-NonCommercial 2.1 Japan License.
Based on a work at bonohu.jp.

PDF
カテゴリー: 2010年代のバイオインフォマティクス, データベース生物学, 雑感 | コメントする

All-in-one 合同講習会 2017

生命科学データベースの構築・管理・運営を担う

の4つの組織が連携して、ここ数年合同講習会を開催してきたのが、今回は三島での開催。自分は、それの統合TV撮影部隊として業務参加。

第一部は、前日まで行われていたINSDCメンバーのうち、NCBIの3人とEBIの1人が今日まで残ってくれて素晴らしい話をしてくれた。その感動したフレーズをtwitterで流した。

データベースは学問のインフラ=公共基盤であり、普段無意識に使って居るが、使えなくなって初めて重要性に気がつく

全世界の科学研究のためにオープンデータ=科学情報の公開・共有を

あなたのデータの最もよい使い道は、あなた以外の他の誰かが思いつくかもしれない

とくに追加説明はいらないだろう。それを適切な統計データと事例で示してくれた彼らに感謝。ありがとう。昨日まで3日間缶詰で会議していた仲間という意識もあってか、講演が終わった時に自然と感謝を言いに行っていた自分。よほど嬉しかったのだろうな。

そして、第2部はその4つの機関の代表による講演。アウトリーチ活動はどのレベルに対して問いかけるか、大変だなと再確認。低めに設定するのが吉なんだろう。今後自分がやる場合のいい参考になった一日であった。関係者の皆様、お疲れ様でした。

Creative Commons License
ぼうのブログ by http://bonohu.jp/blog is licensed under a Creative Commons Attribution-NonCommercial 2.1 Japan License.
Based on a work at bonohu.jp.

PDF
カテゴリー: 2010年代のバイオインフォマティクス, データベース生物学, 雑感 | コメントする

Spliced Transcripts Alignment to a Reference (STAR)

また別のtranscript alignerのSpliced Transcripts Alignment to a Reference (STAR)によるgenome mappingを試してみた。まずは、STAR用のReference genomeのindex作成から。

time STAR --runThreadN 12 --runMode genomeGenerate --genomeDir genome4star \
--genomeFastaFiles hogenome.fa 

メモリが足りないといわれたら、--limitGenomeGenerateRAM=3200000000のようなオプションを追加して。パラメータの渡し方が他とは違って=で指定しないといけないらしい
そして、mapping本体は以下のように。

time STAR --runThreadN 24 --genomeDir genome4star --readFilesCommand pigz -dc \
--outFileNamePrefix hogenome --readFilesIn fuga_1.fq.gz fuga_2.fq.gz

のような感じで実行。read fileがgzip圧縮だったため、--readFilesCommandに並列版gzipのpigz -dcを指定して。効率よく並列化がなされているようで、体感としてTopHat4時間だったのが、STARで4分、という印象。
数多くのオプションが利用可能なようで、詳しくはマニュアル参照。

Creative Commons License
ぼうのブログ by http://bonohu.jp/blog is licensed under a Creative Commons Attribution-NonCommercial 2.1 Japan License.
Based on a work at bonohu.jp.

PDF
カテゴリー: 2010年代のバイオインフォマティクス, データベース生物学, 趣味のプログラミング | コメントする

Genome-guided Trinity

ゲノム配列も読んである場合に使えるGenome-guided Trinity De novo Transcriptome Assembly。まずは、TopHatやSTARなどでリードをゲノム配列マッピング(RNA用)して、その結果のBAMファイル(以下の例ではhogenome.bam)でde novo transcriptome assemblyを実行できる。

time Trinity --genome_guided_bam hogenome.bam \
--genome_guided_max_intron 10000 \
--max_memory 64G --CPU 24
Creative Commons License
ぼうのブログ by http://bonohu.jp/blog is licensed under a Creative Commons Attribution-NonCommercial 2.1 Japan License.
Based on a work at bonohu.jp.

PDF
カテゴリー: 2010年代のバイオインフォマティクス, データベース生物学, 趣味のプログラミング | コメントする

SAMファイルをmerge?

SAMファイルをmergeしてからBAMファイルに変換してsortしようとしたが。一度、BAMに変換してからsortするしかないのか?
まず1ファイルづつ、SAM->BAM変換。

for f in *.sam;
 do g="${f%.*}" 
 time samtools view -@ 4 -bS $f > $g.bam
done

それらをmergeして、そのままsort。

time samtools merge -@ 4 - *.bam \
| time samtools sort -@ 4 -o merged.bam -
Creative Commons License
ぼうのブログ by http://bonohu.jp/blog is licensed under a Creative Commons Attribution-NonCommercial 2.1 Japan License.
Based on a work at bonohu.jp.

PDF
カテゴリー: 2010年代のバイオインフォマティクス, データベース生物学, 趣味のプログラミング | コメントする

StringTie

RNA-seqのためのtranscript assemblyとquantificationのプログラムStringTie。またオプションが変わっているかもしれんが、前に動かした時のそれ。

stringtie fuga.bam -p 4 -o fuga.gtf -G hogenome.gff -A fuga_abd.txt

-Gで指定しているhogenome.gffはGuideとなるreference annotation。-Aのそれがgene abundance estimation。-oでassembled transcriptsの出力を指定(GTFファイル)。

Creative Commons License
ぼうのブログ by http://bonohu.jp/blog is licensed under a Creative Commons Attribution-NonCommercial 2.1 Japan License.
Based on a work at bonohu.jp.

PDF
カテゴリー: 2010年代のバイオインフォマティクス, 趣味のプログラミング | コメントする

hisat2

hisat2でreference genomeにmappingする場合。hisat2のウェブサイトにすでにindexずみのそれがある場合はしなくていいが、まずはindex作成。hisat2-buildコマンドにて。

hisat2-build -p 4 hogenome.fa hoge

そして、実際のmapping。

hisat2 -p 4 -x hoge -1 fuga_1.fastq -2 fuga_2.fastq -S fuga.sam

出力はSAM形式であることに注意。

Creative Commons License
ぼうのブログ by http://bonohu.jp/blog is licensed under a Creative Commons Attribution-NonCommercial 2.1 Japan License.
Based on a work at bonohu.jp.

PDF
カテゴリー: 2010年代のバイオインフォマティクス, 趣味のプログラミング | hisat2 はコメントを受け付けていません。

pip update

pip updateコマンドはないので、pipで入れたパッケージのアップデートは以下のようにする。


pip3 list --outdated \
| awk '{print $1}' \
| xargs pip3 install -U

そろそろ、python3をデフォルトのpythonにして、version3系のpipをpip3と打たないで済むようにしたいところ。

Creative Commons License
ぼうのブログ by http://bonohu.jp/blog is licensed under a Creative Commons Attribution-NonCommercial 2.1 Japan License.
Based on a work at bonohu.jp.

PDF
カテゴリー: 雑感 | コメントする

ChIPデータのアノテーション

近頃はChromatin ImmunoPrecipitation(ChIP)データの再利用がしやすくなっている。それらのデータをアノテーションしているDBとして、UCSC Genome BrowserのTrackにも入っているthe Open Regulatory Annotation database (ORegAnno)に注目していたが。現状temporalなページになっていて、だがデータはダウンロードできる状況。そのうち、復活するのだろうか?

Creative Commons License
ぼうのブログ by http://bonohu.jp/blog is licensed under a Creative Commons Attribution-NonCommercial 2.1 Japan License.
Based on a work at bonohu.jp.

PDF
カテゴリー: 2010年代のバイオインフォマティクス, データベース生物学, 雑感 | コメントする

SPARQLthon56 day2

統合TVのコンテンツ(.movファイル)だけでなく、Togo Picture Galleryのコンテンツも生命科学系データベースアーカイブに移行。統合TV関連コンテンツの完全クラウド化が実現した。そしてついに、この日を持ってtdiary版統合TVウェブインターフェースが廃止となった。「togotv+キーワード」でググった時にそちらが優先的に出るのがずっと気になっていたのだが、今回の廃止でついに現在の三代目インターフェースに統一されることに。関係者の皆さん、おつかれさまでした!
AOEの更新は結局終わらず、継続課題に。

Creative Commons License
ぼうのブログ by http://bonohu.jp/blog is licensed under a Creative Commons Attribution-NonCommercial 2.1 Japan License.
Based on a work at bonohu.jp.

PDF
カテゴリー: 2010年代のバイオインフォマティクス, データベース生物学, 雑感 | コメントする