Written by bonohu in misc on 火 13 6月 2017.
RSEM (RNA-Seq by Expectation-Maximization)は、内部からaligner programを呼び出して使うタイプの発現定量プログラム。
しっかりしたチュートリアルが用意されていて、それに従って実行。
まずはRSEMで使うリファレンスを準備。
#!/bin/sh
rsem-prepare-reference --gtf ref/hogenome …
Continue reading »
Written by bonohu in misc on 月 12 6月 2017.
週末火を落として十分に冷却して見たものの、やはり起動が途中で止まる。そして、shiftを押しながら起動のセーフモードなら立ち上がるのだが、普通に立ち上がらないという状 …
Continue reading »
Written by bonohu in misc on 金 09 6月 2017.
計算途中に急に再起動がかかる。そして、再起動せず…。一回休みorz
Continue reading »
Written by bonohu in misc on 木 08 6月 2017.
しばらくぶりにtransdecoderを実行したところ、TransDecoder.Predictコマンドでコケた。
エラーメッセージ曰く、
% TransDecoder.Predict -t Trinity.fasta
CMD: /usr/local/Cellar/transdecoder/3.0.1/libexec/util/get_top_longest_fasta_entries.pl Trinity.fasta.transdecoder_dir/longest_orfs.cds 5000 > Trinity.fasta.transdecoder_dir/longest_orfs.cds.top_longest_5000
CMD …
Continue reading »
Written by bonohu in misc on 水 07 6月 2017.
解読されたゲノムデータのDBとしては、Genome OnLine Database (GOLD)が有名だが、この種のデータの本家NCBIのそれもかなり充実しているのを先日の学会参加で知った。
Genome Listがそれ。Organism/Name以外に、Kingdom, Group, Subgroupのほか、(Genome) Size, Chr(染色体数 …
Continue reading »
Written by bonohu in misc on 火 06 6月 2017.
ちょっと前の話題になるが。GATKのバージョン4がGATKのブログで紹介された。それと同時に、GATK4 is completely open sourceというブログエントリもポストされ、GATKのラインセンスが変更となるようである …
Continue reading »
Written by bonohu in misc on 土 03 6月 2017.
リトリートに参加してちょっと引っかかったことがあった。データベース(DB)を作るということに関する認識の違い …
Continue reading »
Written by bonohu in misc on 金 02 6月 2017.
引き続き。研究支援としてやっている事業に対して、事あるごとに説明して理解を深めてもらういいチャンスだった …
Continue reading »
Written by bonohu in misc on 木 01 6月 2017.
帰国して次の朝から遺伝研リトリートへ。
情報発信していることは思っている以上に見られていることが判明(この …
Continue reading »
Written by bonohu in misc on 水 31 5月 2017.
最終日。やはり、来たら来ただけ、学ぶことがあった。PAG終了後同じホテルで開催された 2017 PacBio APAC User Group Meetingもフライトの時間の関係で最初だけしか出れなかったものの、いろいろと学ぶことだらけ。
学而時習之 不亦説乎
Continue reading »
Written by bonohu in misc on 火 30 5月 2017.
海外なのに時差が全くないのは素晴らしい。シャワートイレだし、メシマズじゃないし。信号もそっくりだが、右側通行 …
Continue reading »
Written by bonohu in misc on 月 29 5月 2017.
2017年国立遺伝学研究所 国際シンポジウム 最終日は研究者向けの英語での講演。その後、中座してNHDへ。実は今日から始まっているPAG ASIA 2017へ。
旅 …
Continue reading »
Written by bonohu in misc on 日 28 5月 2017.
2017年国立遺伝学研究所 国際シンポジウムとして、DDBJ 30周年記念シンポジウムが三島にて。
Janet ThorntonさんはBritish Airwaysのシステム障害のため、飛行機が飛ばず来れずにキャンセルとのことで残念だ …
Continue reading »
Written by bonohu in misc on 土 27 5月 2017.
生命科学データベースの構築・管理・運営を担う
Continue reading »
Written by bonohu in misc on 金 26 5月 2017.
また別のtranscript alignerのSpliced Transcripts Alignment to a Reference (STAR)によるgenome mappingを試してみた。まずは、STAR用のReference genomeのindex作成から。
[shell]
time STAR --runThreadN 12 --runMode genomeGenerate
--genomeDir genome4star --genomeFastaFiles hogenome.fa
[/shell]
メモリが足りないといわれたら …
Continue reading »
Written by bonohu in misc on 木 25 5月 2017.
ゲノム配列も読んである場合に使えるGenome-guided Trinity De novo Transcriptome Assembly。まずは、TopHatやSTARなどでリードをゲノム配列マッピング(RNA用)して、その結果のBAMファイル(以下の例ではhogenome.bam)でde novo transcriptome assemblyを実行できる。
[shell …
Continue reading »
Written by bonohu in misc on 水 24 5月 2017.
SAMファイルをmergeしてからBAMファイルに変換してsortしようとしたが。一度、BAMに変換してからsortするしかないのか?
まず1ファイルづつ、SAM->BAM変換。
[shell]
for f in .sam;
do g="${f%.}"
time samtools view -@ 4 -bS $f > $g.bam
done
[/shell]
それらをmergeして、そのままsort。
[shell]
time samtools merge -@ 4 - *.bam
| time samtools sort -@ 4 -o merged.bam …
Continue reading »
Written by bonohu in misc on 火 23 5月 2017.
RNA-seqのためのtranscript assemblyとquantificationのプログラムStringTie。またオプションが変わっているかもしれんが、前に動かした時のそれ。
[shell]
stringtie fuga.bam -p 4 -o fuga.gtf -G hogenome.gff -A fuga_abd.txt
[/shell]
-Gで指定しているhogenome …
Continue reading »
Written by bonohu in misc on 月 22 5月 2017.
hisat2でreference genomeにmappingする場合。hisat2のウェブサイトにすでにindexずみのそれがある場合はしなくていいが、まずはindex作成。hisat2-buildコマンドにて。
[shell]
hisat2-build -p 4 hogenome.fa hoge
[/shell]
そして、実際のmapping。
[shell]
hisat2 -p 4 -x hoge -1 fuga_1.fastq -2 fuga_2.fastq -S fuga.sam
[/shell]
出力はSAM形式であることに注意。
Continue reading »
Written by bonohu in misc on 金 19 5月 2017.
pip updateコマンドはないので、pipで入れたパッケージのアップデートは以下のようにする。
[shell]
pip3 list --outdated
| awk '{print $1}'
| xargs pip3 install -U
[/shell]
そろそろ、python3をデフォルトのpythonにして、version3系のpipをpip3と打たないで済むようにしたいところ。
Continue reading »
Written by bonohu in misc on 木 18 5月 2017.
近頃はChromatin ImmunoPrecipitation(ChIP)データの再利用がしやすくなっている。それらのデータをアノテーションしているDBとして、UCSC Genome BrowserのTrackにも入っているthe Open Regulatory Annotation …
Continue reading »
Written by bonohu in misc on 火 16 5月 2017.
統合TVのコンテンツ(.movファイル)だけでなく、Togo Picture Galleryのコンテンツも生命科学系データベースアーカイブに移行。統合TV関連コンテンツの完全クラウド化が実現した。そしてついに、この日を持ってtdiary版統合TVウェブインターフェースが廃止となった。「togotv+キ …
Continue reading »
Written by bonohu in misc on 月 15 5月 2017.
AOEの追加機能の計算をpythonでやろうとするが、データがでかすぎて思うようにできず。できる手段を探しつつ、データをまとめて減らすことも検討。
メタデータの …
Continue reading »
Written by bonohu in misc on 金 12 5月 2017.
きっとあるだろうと思ったら、やっぱりググって出て来たこのページを参考に。
transposeというコマンドもあるらしいが、ここは手堅くawkで。とおもったら、メモ …
Continue reading »
Written by bonohu in misc on 水 10 5月 2017.
みんなのPython勉強会に参加してきた。今回、奇しくも第24回目。月1回なので、ちょうど丸2年ということだった。
内容的にはそれぞれの方の会社で開発されている …
Continue reading »
Written by bonohu in misc on 月 08 5月 2017.
Mishima.syk開催打ち合わせで、三島広小路のあの店へ。その際の写真はこちらに。個人的には、生姜まみれのホタルイカが圧巻 …
Continue reading »
Written by bonohu in misc on 日 07 5月 2017.
BLATはThe BLAST Like Alignment Toolで、UCSC Genome Browser のサイトにあるリファレンスゲノム配列に特化した配列類似性というか配列マッピングツール …
Continue reading »
Written by bonohu in misc on 土 06 5月 2017.
配列パターン検索はリファレンスゲノム中に探すのであれば、ゲゲゲのゲノムことGGGenomeでやるのが手っ取り早い。ゲノ …
Continue reading »
Written by bonohu in misc on 金 05 5月 2017.
配列パターン検索はUNIX的にはgrepでできるが、バイオな配列に対してだと、パターン中に改行が入った場合やヘッダ行中の「誤爆」を防ぎたい …
Continue reading »
Written by bonohu in misc on 木 04 5月 2017.
もちろん、ChIP-seqのデータがあればそれを利用すればいいのだが、多くの場合そういったデータのない非モデル生物種では、転写因子の結合の有無を調べるのに、転写因子 …
Continue reading »
Written by bonohu in misc on 水 03 5月 2017.
モデル生物ではきっちりアノテーションがなされ、UTR(UnTranslated Region)の配列抽出とか、EnsemblのBiomartを使えば簡単にできる。Ensemblにない生物種でも、Ensembl Genomesのそれを …
Continue reading »
Written by bonohu in misc on 火 02 5月 2017.
割とすぐに終わるからこれまで特に気にしていなかったが。調べてみたら、やはりsamtools indexもスレッドオプションがあった。他のコマンドと同じで-@のあと …
Continue reading »
Written by bonohu in misc on 月 01 5月 2017.
今日から5月。絶好のデータ解析日和ということで(^_^)。
TopHatの結果を処理するコマンドは以前はやっつけでinteractiveに処理していたが、バッチ化というか並列化というか。中間ファイルがかさばるの …
Continue reading »
Written by bonohu in misc on 金 28 4月 2017.
ファイル変換weekになってしまったので、BAMからCRAMへのバッチスクリプトも紹介しておく。
SAMBAM変換とは異なり、リファレンスゲノム配列が必要で、それは各環境で違う場所にあると思うので、それは自分の環 …
Continue reading »
Written by bonohu in misc on 木 27 4月 2017.
SAMからBAMに変換して、そのまま中間ファイルを作らずにBAMをソートする。それをバッチで処理するには。
SAMファイルの置いてあるディレクトリに移動(cd)してから、以下のようなスクリプトを実行 …
Continue reading »
Written by bonohu in misc on 水 26 4月 2017.
現在お世話になっている研究所でOxford Nanopore Technologies のセミナーがあり、参加させていただいた。
大変興味深く聞かせてもらった …
Continue reading »
Written by bonohu in misc on 火 25 4月 2017.
ぼうのブログによると、2009年の7月29日に初めてDBCLSに来てくれた当時M1の学生さんだった。その後、Research Assistantとして統合牧場でUNIXとしてのMacの使い方を身につけ、そして学んだことをブログや統合TVとしてまとめてくれた。その後、そのままDBCLSに残ってくれて、後輩RAの指導、とき …
Continue reading »
Written by bonohu in misc on 月 24 4月 2017.
ついにこの日がやってきた。各所に働きかけた末に。
That's one small step for (a) man, one giant leap for mankind.
ただの盛り上がったミーティングに …
Continue reading »
Written by bonohu in misc on 金 21 4月 2017.
配列データ解析、頑張らないと。それを後押しする事象発生。折しもそれ関連の計算を始めていたのは、虫が知らせたか …
Continue reading »
Written by bonohu in misc on 木 20 4月 2017.
昨日のエントリの続きで、複数のBAMファイルをCRAMに変換し、そのサイズを比べてみた。
それぞれのファイルサイズを同一行に来るように1行ごとにデータを作って(cram …
Continue reading »
Written by bonohu in misc on 火 18 4月 2017.
BAMからCRAMへの変換を試してみた。samtoolsを使えば良いだけの模様。
[shell]
samtools view -@ 4 -T hogenome.fa -C -o hoge.cram hoge.bam
[/shell]
3,091,833,154byteあったファイルサイズが、2,325,565,061byteに。約75%になったとは、すごい!CPU時間的には
263.48s user 45.58s system …
Continue reading »
Written by bonohu in misc on 火 18 4月 2017.
dottupの説明を書くため、EMBOSSのチュートリアルを見ていたら、XL23808というアクセッション番号の配列が使われていた。チュートリアルに出ている配列だし、自分もこれで例を作ろうと、これが何かをDDBJ/ENA/GenBankで検索しても、ググって …
Continue reading »
Written by bonohu in misc on 月 17 4月 2017.
直接は被っていないものの、それでも学生委員会の同窓会で最近も何回か会った、同学年の同志の訃報。そんな私にも …
Continue reading »
Written by bonohu in misc on 土 15 4月 2017.
米国のアウトリーチ活動に関して、2016年9月のICE2016に参加した時に紹介してもらった Library of Life Collection Card が断舎離していたら出てきた …
Continue reading »
Written by bonohu in misc on 金 14 4月 2017.
AWSに移設したAOE2の更新ができるように、いろいろと準備してもらいつつ。昨日やったことのまとめ。
AWSにsshできるように/Users/hoge/.ssh/configに以下の設定を追記。
host fuga
user ec2-user
hostname xxx.xxx.xxx.xxx
identityfile /Users/hoge/.ssh/fuga.pem
そして
[shell …
Continue reading »
Written by bonohu in misc on 木 13 4月 2017.
AOE2いよいよ公開へ。セキュリティ強化と停電のないサーバーでのサービスを、ということでAWS化を急遽。達人たちに教えてもらい、AWSでセットアップしてもらう。いろいろと …
Continue reading »
Written by bonohu in misc on 水 12 4月 2017.
これまで試したことなかったが、EnsemblでもTrack Hubsが使えるらしい。
追加する際に見に行く先の Track Hub registry はかつてのDAS registryのように各ゲノムブラウザー(といってもUCSC Genome BrowserとEnsembl Genome …
Continue reading »
Written by bonohu in misc on 火 11 4月 2017.
ショッキングな統計値を教えてもらった。国の機関サイトの残存率というもので、5年残存率は40% (2015年)というものである。つまり半分 …
Continue reading »
Written by bonohu in misc on 月 10 4月 2017.
Trinityを実行する際にFASTQのヘッダが問題となる事例。以前から同様の事が起きており、その場合は、
[shell]
bzcat file.fq.bz2
| awk '{if(NR%4==3) $0=sprintf("'"+${index}%d"'",(1+i++)); print;}'
| awk '{if(NR%4==1) $0=sprintf("'"@${index}%d"'",(1+i++)); print;}'
| bzip2 …
Continue reading »
Written by bonohu in misc on 日 09 4月 2017.
未来永劫続くプロジェクトやデータベースはないとはわかっていても、その継続を仮定してしまうのはなぜだろう …
Continue reading »