SPARQLthon57 day2
Written by bonohu in misc on 金 23 6月 2017.
2日目は開発しているserviceの検索インターフェースいろいろ打ち合わせをいくつか。この会では有識者がいて、そういった話を脇で聞いてくてて、「車輪の再発明」をせずにすむようなツッコミをいただ …
2日目は開発しているserviceの検索インターフェースいろいろ打ち合わせをいくつか。この会では有識者がいて、そういった話を脇で聞いてくてて、「車輪の再発明」をせずにすむようなツッコミをいただ …
AOEでの検索結果から取得すべきSRAのRUNのIDを探し当ててSRAファイルを取得し、それらを並列にFASTQに変換して、トリミング後、発現定量して、発現差データ作成するのを並行に進めつつ、pfastq-dumpのバグ出しから。
今年度(2017年度)も引き続き、国際学術情報流通基盤整備事業(SPARC Japan)のセミナー企画ワーキンググループのメンバーとして。そ …
探したらやはりあった、並列版のfastq-dump。これはpythonによる実装でインストールがちょっと…。さらに探したら、身近にbashでのimplementationを公開している方がいたw。こちらのほうがイ …
confers resistance to lidocaine-induced cell death wordpress_id: 3660 categories:
2006年3月にがんとハイポキシア研究会に初めて出てからすでに10年以上経ったが、ようやくこの研究会つながりの共同 …
日頃よく使う「道具」のメンテナンス。システム標準のだと効率が悪かったりするので。 このブログでも何回か出てきた …
ようやく、RSEMの実行。bowtie2でだが、以下のコマンドで。 [shell] time rsem-calculate-expression -p 12 --paired-end --bowtie2 --bowtie2-path /usr/local/bin --estimate-rspd --append-names --output-genome-bam hoge_1.fq hoge_2.fq rsem-bowtie2/human rsem_out/hoge [/shell] -pに12設定したが意外に時間がかかった。
real 333m27.062s
user 1795m57.676s
sys 98m26.410s
実時間 …
リファンレンスゲノムとGTFの両方Ensemblから調達。実行時点で最新のEnsembl89を使って検索用のリファレンス作成。 [shell] time rsem-prepare-reference --gtf Homo_sapiens.GRCh38.89.chr.gtf --bowtie2 --bowtie-path /usr/local/bin Homo_sapiens.GRCh38.dna.toplevel.fa rsem-bowtie2/human [/shell] 実行時間はわり …
RSEMを実行する際には、リファレンスを作成する必要がある。それをやるrsem-prepare-referenceコマンドは、GFF(version3)はダメで、GTFしか受け付けない模様。しかもこのGTFのチェックが厳しく、大文字小文字も区別するようだ …
RSEM (RNA-Seq by Expectation-Maximization)は、内部からaligner programを呼び出して使うタイプの発現定量プログラム。 しっかりしたチュートリアルが用意されていて、それに従って実行。 まずはRSEMで使うリファレンスを準備。
#!/bin/sh
rsem-prepare-reference --gtf ref/hogenome …
週末火を落として十分に冷却して見たものの、やはり起動が途中で止まる。そして、shiftを押しながら起動のセーフモードなら立ち上がるのだが、普通に立ち上がらないという状 …
計算途中に急に再起動がかかる。そして、再起動せず…。一回休みorz
しばらくぶりにtransdecoderを実行したところ、TransDecoder.Predictコマンドでコケた。 エラーメッセージ曰く、
% TransDecoder.Predict -t Trinity.fasta
CMD: /usr/local/Cellar/transdecoder/3.0.1/libexec/util/get_top_longest_fasta_entries.pl Trinity.fasta.transdecoder_dir/longest_orfs.cds 5000 > Trinity.fasta.transdecoder_dir/longest_orfs.cds.top_longest_5000
CMD …
解読されたゲノムデータのDBとしては、Genome OnLine Database (GOLD)が有名だが、この種のデータの本家NCBIのそれもかなり充実しているのを先日の学会参加で知った。 Genome Listがそれ。Organism/Name以外に、Kingdom, Group, Subgroupのほか、(Genome) Size, Chr(染色体数 …
ちょっと前の話題になるが。GATKのバージョン4がGATKのブログで紹介された。それと同時に、GATK4 is completely open sourceというブログエントリもポストされ、GATKのラインセンスが変更となるようである …
リトリートに参加してちょっと引っかかったことがあった。データベース(DB)を作るということに関する認識の違い …
引き続き。研究支援としてやっている事業に対して、事あるごとに説明して理解を深めてもらういいチャンスだった …
帰国して次の朝から遺伝研リトリートへ。 情報発信していることは思っている以上に見られていることが判明(この …
最終日。やはり、来たら来ただけ、学ぶことがあった。PAG終了後同じホテルで開催された 2017 PacBio APAC User Group Meetingもフライトの時間の関係で最初だけしか出れなかったものの、いろいろと学ぶことだらけ。
学而時習之 不亦説乎
海外なのに時差が全くないのは素晴らしい。シャワートイレだし、メシマズじゃないし。信号もそっくりだが、右側通行 …
2017年国立遺伝学研究所 国際シンポジウム 最終日は研究者向けの英語での講演。その後、中座してNHDへ。実は今日から始まっているPAG ASIA 2017へ。 旅 …
2017年国立遺伝学研究所 国際シンポジウムとして、DDBJ 30周年記念シンポジウムが三島にて。 Janet ThorntonさんはBritish Airwaysのシステム障害のため、飛行機が飛ばず来れずにキャンセルとのことで残念だ …
生命科学データベースの構築・管理・運営を担う
また別のtranscript alignerのSpliced Transcripts Alignment to a Reference (STAR)によるgenome mappingを試してみた。まずは、STAR用のReference genomeのindex作成から。 [shell] time STAR --runThreadN 12 --runMode genomeGenerate --genomeDir genome4star --genomeFastaFiles hogenome.fa [/shell] メモリが足りないといわれたら …
ゲノム配列も読んである場合に使えるGenome-guided Trinity De novo Transcriptome Assembly。まずは、TopHatやSTARなどでリードをゲノム配列マッピング(RNA用)して、その結果のBAMファイル(以下の例ではhogenome.bam)でde novo transcriptome assemblyを実行できる。 [shell …
SAMファイルをmergeしてからBAMファイルに変換してsortしようとしたが。一度、BAMに変換してからsortするしかないのか? まず1ファイルづつ、SAM->BAM変換。 [shell] for f in .sam; do g="${f%.}" time samtools view -@ 4 -bS $f > $g.bam done [/shell] それらをmergeして、そのままsort。 [shell] time samtools merge -@ 4 - *.bam | time samtools sort -@ 4 -o merged.bam …
RNA-seqのためのtranscript assemblyとquantificationのプログラムStringTie。またオプションが変わっているかもしれんが、前に動かした時のそれ。 [shell] stringtie fuga.bam -p 4 -o fuga.gtf -G hogenome.gff -A fuga_abd.txt [/shell] -Gで指定しているhogenome …
hisat2でreference genomeにmappingする場合。hisat2のウェブサイトにすでにindexずみのそれがある場合はしなくていいが、まずはindex作成。hisat2-buildコマンドにて。 [shell] hisat2-build -p 4 hogenome.fa hoge [/shell] そして、実際のmapping。 [shell] hisat2 -p 4 -x hoge -1 fuga_1.fastq -2 fuga_2.fastq -S fuga.sam [/shell] 出力はSAM形式であることに注意。
pip updateコマンドはないので、pipで入れたパッケージのアップデートは以下のようにする。 [shell] pip3 list --outdated | awk '{print $1}' | xargs pip3 install -U [/shell] そろそろ、python3をデフォルトのpythonにして、version3系のpipをpip3と打たないで済むようにしたいところ。
近頃はChromatin ImmunoPrecipitation(ChIP)データの再利用がしやすくなっている。それらのデータをアノテーションしているDBとして、UCSC Genome BrowserのTrackにも入っているthe Open Regulatory Annotation …
統合TVのコンテンツ(.movファイル)だけでなく、Togo Picture Galleryのコンテンツも生命科学系データベースアーカイブに移行。統合TV関連コンテンツの完全クラウド化が実現した。そしてついに、この日を持ってtdiary版統合TVウェブインターフェースが廃止となった。「togotv+キ …
AOEの追加機能の計算をpythonでやろうとするが、データがでかすぎて思うようにできず。できる手段を探しつつ、データをまとめて減らすことも検討。 メタデータの …
きっとあるだろうと思ったら、やっぱりググって出て来たこのページを参考に。 transposeというコマンドもあるらしいが、ここは手堅くawkで。とおもったら、メモ …
みんなのPython勉強会に参加してきた。今回、奇しくも第24回目。月1回なので、ちょうど丸2年ということだった。 内容的にはそれぞれの方の会社で開発されている …
Mishima.syk開催打ち合わせで、三島広小路のあの店へ。その際の写真はこちらに。個人的には、生姜まみれのホタルイカが圧巻 …
BLATはThe BLAST Like Alignment Toolで、UCSC Genome Browser のサイトにあるリファレンスゲノム配列に特化した配列類似性というか配列マッピングツール …
配列パターン検索はリファレンスゲノム中に探すのであれば、ゲゲゲのゲノムことGGGenomeでやるのが手っ取り早い。ゲノ …
配列パターン検索はUNIX的にはgrepでできるが、バイオな配列に対してだと、パターン中に改行が入った場合やヘッダ行中の「誤爆」を防ぎたい …
もちろん、ChIP-seqのデータがあればそれを利用すればいいのだが、多くの場合そういったデータのない非モデル生物種では、転写因子の結合の有無を調べるのに、転写因子 …
モデル生物ではきっちりアノテーションがなされ、UTR(UnTranslated Region)の配列抽出とか、EnsemblのBiomartを使えば簡単にできる。Ensemblにない生物種でも、Ensembl Genomesのそれを …
割とすぐに終わるからこれまで特に気にしていなかったが。調べてみたら、やはりsamtools indexもスレッドオプションがあった。他のコマンドと同じで-@のあと …
今日から5月。絶好のデータ解析日和ということで(^_^)。 TopHatの結果を処理するコマンドは以前はやっつけでinteractiveに処理していたが、バッチ化というか並列化というか。中間ファイルがかさばるの …
ファイル変換weekになってしまったので、BAMからCRAMへのバッチスクリプトも紹介しておく。 SAMBAM変換とは異なり、リファレンスゲノム配列が必要で、それは各環境で違う場所にあると思うので、それは自分の環 …
SAMからBAMに変換して、そのまま中間ファイルを作らずにBAMをソートする。それをバッチで処理するには。 SAMファイルの置いてあるディレクトリに移動(cd)してから、以下のようなスクリプトを実行 …
現在お世話になっている研究所でOxford Nanopore Technologies のセミナーがあり、参加させていただいた。 大変興味深く聞かせてもらった …
ぼうのブログによると、2009年の7月29日に初めてDBCLSに来てくれた当時M1の学生さんだった。その後、Research Assistantとして統合牧場でUNIXとしてのMacの使い方を身につけ、そして学んだことをブログや統合TVとしてまとめてくれた。その後、そのままDBCLSに残ってくれて、後輩RAの指導、とき …
ついにこの日がやってきた。各所に働きかけた末に。
That's one small step for (a) man, one giant leap for mankind.
ただの盛り上がったミーティングに …
配列データ解析、頑張らないと。それを後押しする事象発生。折しもそれ関連の計算を始めていたのは、虫が知らせたか …
昨日のエントリの続きで、複数のBAMファイルをCRAMに変換し、そのサイズを比べてみた。
それぞれのファイルサイズを同一行に来るように1行ごとにデータを作って(cram …
BAMからCRAMへの変換を試してみた。samtoolsを使えば良いだけの模様。 [shell] samtools view -@ 4 -T hogenome.fa -C -o hoge.cram hoge.bam [/shell] 3,091,833,154byteあったファイルサイズが、2,325,565,061byteに。約75%になったとは、すごい!CPU時間的には
263.48s user 45.58s system …