横方向のcat
Written by bonohu in misc on 月 03 7月 2017.
RSEMの結果ファイルからFPKM値で複数のサンプルの結果を抜き出したいとき。current directoryすべての結果ファイルに対してそれをしたい場合、以下のようなシェルスクリプトで。実行する前にFPKMというdirectoryを作成して、そこに処理したファイル群が書き込まれるようにする。
#!/bin …
RSEMの結果ファイルからFPKM値で複数のサンプルの結果を抜き出したいとき。current directoryすべての結果ファイルに対してそれをしたい場合、以下のようなシェルスクリプトで。実行する前にFPKMというdirectoryを作成して、そこに処理したファイル群が書き込まれるようにする。
#!/bin …
本日2017年7月1日で、ついにライフサイエンス統合データベースセンター(DBCLS)に来て丸10年が経った。あの日、まだプレハブの仮住まいだったDBCLSから歩いて本郷三丁目駅に向かい丸ノ内線に乗って東京駅に …
去年のこの日にも書いた振り返りエントリ。 2017年前半を振り返って。出張による外泊は、28泊と昨年前半の43泊より減少。出張を抑制、データ解析や物書きに取り組もうと …
RSEMによるRNA-seqの続き。RSEMデータ解析チュートリアルにある発現差解析方法。 rsem-run-ebseqとrsem-control-fdrはmake installしても/usr/local/bin以下にインストールされないので、注意。hoge1とhoge2の2つのサンプルの発現差を解析する場合、以下のように。 [shell] rsem-generate-data-matrix hoge1.genes.results hoge2.genes.results > hogeMat.txt ~/Documents/src/RSEM-1.3.0/rsem-run-ebseq hogeMat.txt 1,1 hogeMat.results ~/Documents/src/RSEM-1.3.0/rsem-control-fdr hogeMat.results 0.05 hogeMat.de …
前日に投げてたrevisionへのrevisionが日本時間の夜に。共同研究者に取り急ぎ連絡しておくとすぐに返事が来て、re-resubmitできる状態になったので、思い切ってすぐに。そうしたら、これま …
先日参加した学会の参加者リストが公開されていた。ナンバリングされていたため、最後の行を見る限り255で、255名の参加者がいたらしいことがわかるものの、その内 …
標題のシンポジウムに参加して来た。研究データ利活用協議会(Research Data Utilization Forum(RDUF、読み方不明))とは、わが国における研究デー …
出張先でプリンターから出力する必要があり、プラインター設定をちゃらっとして出力したものの。A4に打ち出したはずなのに90度回転したレイアウトで打ち出される。レイアウト設 …
2日目は開発しているserviceの検索インターフェースいろいろ打ち合わせをいくつか。この会では有識者がいて、そういった話を脇で聞いてくてて、「車輪の再発明」をせずにすむようなツッコミをいただ …
AOEでの検索結果から取得すべきSRAのRUNのIDを探し当ててSRAファイルを取得し、それらを並列にFASTQに変換して、トリミング後、発現定量して、発現差データ作成するのを並行に進めつつ、pfastq-dumpのバグ出しから。
今年度(2017年度)も引き続き、国際学術情報流通基盤整備事業(SPARC Japan)のセミナー企画ワーキンググループのメンバーとして。そ …
探したらやはりあった、並列版のfastq-dump。これはpythonによる実装でインストールがちょっと…。さらに探したら、身近にbashでのimplementationを公開している方がいたw。こちらのほうがイ …
confers resistance to lidocaine-induced cell death wordpress_id: 3660 categories:
2006年3月にがんとハイポキシア研究会に初めて出てからすでに10年以上経ったが、ようやくこの研究会つながりの共同 …
日頃よく使う「道具」のメンテナンス。システム標準のだと効率が悪かったりするので。 このブログでも何回か出てきた …
ようやく、RSEMの実行。bowtie2でだが、以下のコマンドで。 [shell] time rsem-calculate-expression -p 12 --paired-end --bowtie2 --bowtie2-path /usr/local/bin --estimate-rspd --append-names --output-genome-bam hoge_1.fq hoge_2.fq rsem-bowtie2/human rsem_out/hoge [/shell] -pに12設定したが意外に時間がかかった。
real 333m27.062s
user 1795m57.676s
sys 98m26.410s
実時間 …
リファンレンスゲノムとGTFの両方Ensemblから調達。実行時点で最新のEnsembl89を使って検索用のリファレンス作成。 [shell] time rsem-prepare-reference --gtf Homo_sapiens.GRCh38.89.chr.gtf --bowtie2 --bowtie-path /usr/local/bin Homo_sapiens.GRCh38.dna.toplevel.fa rsem-bowtie2/human [/shell] 実行時間はわり …
RSEMを実行する際には、リファレンスを作成する必要がある。それをやるrsem-prepare-referenceコマンドは、GFF(version3)はダメで、GTFしか受け付けない模様。しかもこのGTFのチェックが厳しく、大文字小文字も区別するようだ …
RSEM (RNA-Seq by Expectation-Maximization)は、内部からaligner programを呼び出して使うタイプの発現定量プログラム。 しっかりしたチュートリアルが用意されていて、それに従って実行。 まずはRSEMで使うリファレンスを準備。
#!/bin/sh
rsem-prepare-reference --gtf ref/hogenome …
週末火を落として十分に冷却して見たものの、やはり起動が途中で止まる。そして、shiftを押しながら起動のセーフモードなら立ち上がるのだが、普通に立ち上がらないという状 …
計算途中に急に再起動がかかる。そして、再起動せず…。一回休みorz
しばらくぶりにtransdecoderを実行したところ、TransDecoder.Predictコマンドでコケた。 エラーメッセージ曰く、
% TransDecoder.Predict -t Trinity.fasta
CMD: /usr/local/Cellar/transdecoder/3.0.1/libexec/util/get_top_longest_fasta_entries.pl Trinity.fasta.transdecoder_dir/longest_orfs.cds 5000 > Trinity.fasta.transdecoder_dir/longest_orfs.cds.top_longest_5000
CMD …
解読されたゲノムデータのDBとしては、Genome OnLine Database (GOLD)が有名だが、この種のデータの本家NCBIのそれもかなり充実しているのを先日の学会参加で知った。 Genome Listがそれ。Organism/Name以外に、Kingdom, Group, Subgroupのほか、(Genome) Size, Chr(染色体数 …
ちょっと前の話題になるが。GATKのバージョン4がGATKのブログで紹介された。それと同時に、GATK4 is completely open sourceというブログエントリもポストされ、GATKのラインセンスが変更となるようである …
リトリートに参加してちょっと引っかかったことがあった。データベース(DB)を作るということに関する認識の違い …
引き続き。研究支援としてやっている事業に対して、事あるごとに説明して理解を深めてもらういいチャンスだった …
帰国して次の朝から遺伝研リトリートへ。 情報発信していることは思っている以上に見られていることが判明(この …
最終日。やはり、来たら来ただけ、学ぶことがあった。PAG終了後同じホテルで開催された 2017 PacBio APAC User Group Meetingもフライトの時間の関係で最初だけしか出れなかったものの、いろいろと学ぶことだらけ。
学而時習之 不亦説乎
海外なのに時差が全くないのは素晴らしい。シャワートイレだし、メシマズじゃないし。信号もそっくりだが、右側通行 …
2017年国立遺伝学研究所 国際シンポジウム 最終日は研究者向けの英語での講演。その後、中座してNHDへ。実は今日から始まっているPAG ASIA 2017へ。 旅 …
2017年国立遺伝学研究所 国際シンポジウムとして、DDBJ 30周年記念シンポジウムが三島にて。 Janet ThorntonさんはBritish Airwaysのシステム障害のため、飛行機が飛ばず来れずにキャンセルとのことで残念だ …
生命科学データベースの構築・管理・運営を担う
また別のtranscript alignerのSpliced Transcripts Alignment to a Reference (STAR)によるgenome mappingを試してみた。まずは、STAR用のReference genomeのindex作成から。 [shell] time STAR --runThreadN 12 --runMode genomeGenerate --genomeDir genome4star --genomeFastaFiles hogenome.fa [/shell] メモリが足りないといわれたら …
ゲノム配列も読んである場合に使えるGenome-guided Trinity De novo Transcriptome Assembly。まずは、TopHatやSTARなどでリードをゲノム配列マッピング(RNA用)して、その結果のBAMファイル(以下の例ではhogenome.bam)でde novo transcriptome assemblyを実行できる。 [shell …
SAMファイルをmergeしてからBAMファイルに変換してsortしようとしたが。一度、BAMに変換してからsortするしかないのか? まず1ファイルづつ、SAM->BAM変換。 [shell] for f in .sam; do g="${f%.}" time samtools view -@ 4 -bS $f > $g.bam done [/shell] それらをmergeして、そのままsort。 [shell] time samtools merge -@ 4 - *.bam | time samtools sort -@ 4 -o merged.bam …
RNA-seqのためのtranscript assemblyとquantificationのプログラムStringTie。またオプションが変わっているかもしれんが、前に動かした時のそれ。 [shell] stringtie fuga.bam -p 4 -o fuga.gtf -G hogenome.gff -A fuga_abd.txt [/shell] -Gで指定しているhogenome …
hisat2でreference genomeにmappingする場合。hisat2のウェブサイトにすでにindexずみのそれがある場合はしなくていいが、まずはindex作成。hisat2-buildコマンドにて。 [shell] hisat2-build -p 4 hogenome.fa hoge [/shell] そして、実際のmapping。 [shell] hisat2 -p 4 -x hoge -1 fuga_1.fastq -2 fuga_2.fastq -S fuga.sam [/shell] 出力はSAM形式であることに注意。
pip updateコマンドはないので、pipで入れたパッケージのアップデートは以下のようにする。 [shell] pip3 list --outdated | awk '{print $1}' | xargs pip3 install -U [/shell] そろそろ、python3をデフォルトのpythonにして、version3系のpipをpip3と打たないで済むようにしたいところ。
近頃はChromatin ImmunoPrecipitation(ChIP)データの再利用がしやすくなっている。それらのデータをアノテーションしているDBとして、UCSC Genome BrowserのTrackにも入っているthe Open Regulatory Annotation …
統合TVのコンテンツ(.movファイル)だけでなく、Togo Picture Galleryのコンテンツも生命科学系データベースアーカイブに移行。統合TV関連コンテンツの完全クラウド化が実現した。そしてついに、この日を持ってtdiary版統合TVウェブインターフェースが廃止となった。「togotv+キ …
AOEの追加機能の計算をpythonでやろうとするが、データがでかすぎて思うようにできず。できる手段を探しつつ、データをまとめて減らすことも検討。 メタデータの …
きっとあるだろうと思ったら、やっぱりググって出て来たこのページを参考に。 transposeというコマンドもあるらしいが、ここは手堅くawkで。とおもったら、メモ …
みんなのPython勉強会に参加してきた。今回、奇しくも第24回目。月1回なので、ちょうど丸2年ということだった。 内容的にはそれぞれの方の会社で開発されている …
Mishima.syk開催打ち合わせで、三島広小路のあの店へ。その際の写真はこちらに。個人的には、生姜まみれのホタルイカが圧巻 …
BLATはThe BLAST Like Alignment Toolで、UCSC Genome Browser のサイトにあるリファレンスゲノム配列に特化した配列類似性というか配列マッピングツール …
配列パターン検索はリファレンスゲノム中に探すのであれば、ゲゲゲのゲノムことGGGenomeでやるのが手っ取り早い。ゲノ …
配列パターン検索はUNIX的にはgrepでできるが、バイオな配列に対してだと、パターン中に改行が入った場合やヘッダ行中の「誤爆」を防ぎたい …
もちろん、ChIP-seqのデータがあればそれを利用すればいいのだが、多くの場合そういったデータのない非モデル生物種では、転写因子の結合の有無を調べるのに、転写因子 …
モデル生物ではきっちりアノテーションがなされ、UTR(UnTranslated Region)の配列抽出とか、EnsemblのBiomartを使えば簡単にできる。Ensemblにない生物種でも、Ensembl Genomesのそれを …
割とすぐに終わるからこれまで特に気にしていなかったが。調べてみたら、やはりsamtools indexもスレッドオプションがあった。他のコマンドと同じで-@のあと …
今日から5月。絶好のデータ解析日和ということで(^_^)。 TopHatの結果を処理するコマンドは以前はやっつけでinteractiveに処理していたが、バッチ化というか並列化というか。中間ファイルがかさばるの …