タブをgrep
Written by bonohu in misc on 木 03 3月 2016.
grep便利ですね。タブ区切りのテキストで必要な情報を持つ行だけ取ってくるとか、多用されます。ですが、 [shell] grep chr1 hoge.gff [/shell] では1番染色体(chr1)の …
grep便利ですね。タブ区切りのテキストで必要な情報を持つ行だけ取ってくるとか、多用されます。ですが、 [shell] grep chr1 hoge.gff [/shell] では1番染色体(chr1)の …
ときすでにsamtoolsのバージョンは1.3。single threadで遅く、時にはそれが律速になっていたsambam変換も並列化されている。 samtools sortの時と同様に、-@フラグで使用するCPU数を指定。例えば、
[shell] samtools view -@ 8 -bS file.sam > file …
大量のファイルの移動が必要な季節になってきましたが、我々DB屋は年がら年中です。複数のディレクトリ階層構造を持ったファイルの同 …
中上級向けの統合データベース講習会AJACSadvanced(AJACSa)の第二弾として、2016年2月25日と26日の両日、国立遺伝学研究所内のDBCLS三島の講習スペースにてAJACSa三島2を実施しました。 参加者は …
すでにDBCLSのニュースでもアナウンスしておりますが、2016年2月25日と26日の両日、国立遺伝学研究所内になるライフサイエンス統合データベースセンターにて、統合データベース講習 …
2016年2月16,17日に理研和光にてSPARQLthon41に参加。引き続き、DBCLSで開発中の遺伝子発現目次AOEに公共遺伝子発現データベースArrayExpress(含むGene Expression Omnibus)に無いデータ(=Transcriptome sequenceによる遺伝子発現定量)を補完するのに取り組む。 SRA(Sequence Read Archive)のデータをSolrで検索できるようにしてもらったのを利用して、加えるべきデータセ …
2016年1月26,27日に鹿児島大学桜ヶ丘キャンパスでの統合データベース講習会AJACS薩摩に講師として参りました。今年度、3回目。
前回参加のAJACS津軽では、遺伝子発現DBの使い方とR/Bioconductorを使ったデータ解析入門を担当し、遺伝 …
統合データベース講習会の資料はmarkdownで書かれており、それらをgithub上にアップすることで講習会資料のPDFになったり、統合TVのウェブサイトから見えるようになったり、systematicに処理されるようになっています。それをアップするにはAJACS-trainingさんにpull requestを送り、以前のコンテンツと置き換え …
2015年は、5月に領域融合レビュー「次世代シークエンサーにより得られたデータの解析」を公開、10月に「次世代シークエンサーDRY解析教本」を出 …
印刷物には誤表示等はつきものですが。Dry解析教本にもそれが見つかってまいりました。とくにUNIXのコマンドに間違いがあるものは問題ですが、そのタイプのものも見つかってきたのでこちらでも。公式な正誤 …
先月のBioHackathonで参加者たちがそれぞれに持ってきた研究紹介のパンフレットを見ていて発見したのが、このsequenceserver。何の事はない、Ruby製のlocalBLASTのGUIなinterfaceなのだが、これがinteractiveに複数BLASTをかけてそのalignmentの結果をチェックしたい時になかなか便利。便利だと思っている点をまとめると
それはqueryに対してどこにヒットしたかという、かつてのpaintBLAST的な出力がトップに出る
queryをコピペしたら塩基配列かアミノ酸配列か自動判別してくれる
検索対象のDBが …
いよいよ出版されます。本日、2015年10月8日からの第74回日本癌学会学術総会@名古屋国際会議場にて先行発売されます。私自身、今年も癌学会学術総会に出席してお …
今年も、10月5日にトーゴーの日シンポジウム。今年は2日にわたって、東京大学弥生講堂・一条ホールにて。全体的な印象としてはデータベ …
2015年9月14日〜18日までの丸一週間、長崎にてBioHackathon2015に参加中。ハッシュタグは #biohack15。今回は、AOEにGEO/ArrayExpressに入っていないRNA-seqデータを含めて、名前の通りAll of Gene expressionデータが検索できるようにしようと目論んでおります。これまで同様、それらのスクリプト …
以下の様な声をたまに聞く。
DDBJのDRAにはFASTQ形式のファイルがなくてダウンロードできない
と。FASTQ形式はテキスト形式で、圧縮しない状態ではディスク容量を喰う。ブログエントリを書いている2015年8月末時点ですでに約2.5ペタバイトものデータ容量がSRAだけであり、その …
2015年9月3,4日に弘前大学での統合データベース講習会AJACS津軽に講師として参ります。今年度二回目の「代表招集」。
paintBLASTとか知っているだろうか?かつてNCBIのウェブサイトでBLAST検索した時に上部に、queryのどの部分にDB中の配列がマッチしたかを可視化してくれるクリッカブルイメージがあったと思うのだが、それを生成するためのツールがそれだったと思う。 それを使ってBLASTの結果を可視化したいと思い、探したのだが、どうも維持されてい …
データ量は大きくなるばかりで、それをファイル圧縮して保存しておくなり、転送するなりが当たり前になっている …
2015/08/10-11は、DBCLS三島というか、DDBJのある国立遺伝学研究所にてSPARQLthon35回目。前回の続きで、SRAに登録されているものの遺伝子発現データベースに登録されていないエントリがどれぐらいあるかの調査。予想に反して多かったので、別ソースでIDの対応が付けられないか、SRAをやっている同僚の仲里さんに手伝ってもらって対応をとってみた。
前回、5234ものRNAseqのSRAエントリがBioProjectID単位でArrayExpress(GEO)に載っていないというショッキン …
screenの使い方の投稿の修正をポストしたついでにtwitterに流したら、byobuというものがあってこっちのほうがナウでヤングだという御意見を頂戴する。Linuxでの紹介記事も教えてもらったが、
[shell] brew install -v byobu [/shell]
したらやっぱりhomebrewにもあってサクッと入った。細かい使い方は全く一 …
2015/07/16-17の両日は、SPARQLthonの34回目でDBCLS柏。前回からやっている、SRAに登録されているものGEOやArrayExpressといった遺伝子発現データベースに載っていないデータをリストアップしてみようの続き。比較するために、BioProjectのIDに変換して同じだたかどうかを判定。データゴニョゴニョは前回でやっていたので、それの解釈が主な …
コマンドラインでのデータ処理はすぐに終わらないものもあります。解析すべきデータ量が多い昨今、とくにその傾 …
2015/06/22-23の両日は、SPARQLthonの33回目でDBCLS柏。以前より、この会で取り組み続けている「NGSデータ解析ツールのDocker化とその環境づくり」を続けてやっているところ。最近は主にRNAseqデータの定量をするためのそれに取り組んでいます。日本のSRA(=DRA)に登録され …
しばらくご無沙汰になっていまいました。 ネタはたまっているのですが、なかなか公開qualityに達せず。 前エントリで、「薄い本」パート …
ぼうのブログの「2010年代のバイオインフォマティクス」カテゴリを創設したときに
概念的なまとめを書いた「薄い本」パート
「データ解析プロトコル」パート …
外部での講演、講義、研究打ち合わせが続いた2015年春の大型連休の前後だった。並行していろいろ書き物。振り返ってみると悲しいことを忘れようと …
IGVに表示するためのGFFを出力する捨てコード(Perl)書き。入力はBLASTの結果のタブ区切り出力(-outfmt 6指定して出てくるもの)。以下のコードをhoge.prlとして、 [shell] perl hoge.prl sample1 < BLASTout.txt > BLASTout.gff [/shell] のようにして使う。
9カラム目のattributesは任意だと思っていたのだが、こ …
NCBI Homologeneからいろんな生物種でのある遺伝子のホモログをリストアップした際、デフォルトではそれのmultiFASTA形式ファイルでgiとRefSeqのIDがラベルとなって出力される。それでは人間様にとってはぱっと見わかりにくいので、FASTAヘッダ中に[Homo sapiens]のように含まれている …
年度初めからショッキングな出来事が多く、仕事がなかなかはかどっている感じがしませんし、実際そうだと思いま …
前日に引き続き。同じようにO/Nでtophat走らせていたが、やっぱり突然virtualboxがreboot。なんなのだろう?
root@21ee049caf37:/data# tophat -o test_out -p 12 -r 100 hg19 1_1.fastq 1_2.fastq
[2015-04-03 01 …
昨晩帰りがけにO/Nでのrunを仕込んだので、時間はかかるが一晩で終わるかと思いきや、途中でVirtual box自体が落ちてて終わらず。
仕方がないので、1万readに絞ったデータセットを作って、それで実行。すると …
SPARQLthonが、職場のある三島での開催の今回。だが、自分は引き続きDockerでbioなツールを動かす系の構築に勤しむ。今回のキーワードは、「ゆくゆくはSPARQLを知らないといけない」。
前回のhackathon後、de novo transcriptome assembly系のTrinityをDocker上で動かすことを試みた。プ …
twitterによる情報発信に依存するようになってもう5年以上になるだろうか。引っ越しする前の職場では多くのアルバイト学生さんが居て、彼らに自分たちの仕事や状況を伝えるのに便利な …
NGSな変異解析にはsamtoolsの他にGATKやPicardといったツールを使うらしい。Picardだが、「ピカール」と読むらしい実は「ピカード」という英語発音らしい。インストールはいつものhomebrew。
[shell] brew install -v picard-tools [/shell]
いろいろ …
cufflinksに含まれるプログラムのcuffdiffは発現差を調べるのに有用なのだが、うまく動かないことも。その場合にしたこととして、 -pまたは--num-threadsで指定するthread数の指定を減らす、それでもダメな場合は1に。 また、IDとNAME両方が一番右っかわのカラムにないとcuffdiffがセグフォするらしい。無理やり書く捨てコード(実 …
samtoolsのsortは結構時間がかかります。新しいバージョン(1.2で確認)だと、-@というオプションを付ければ並列化されます。
[shell] samtools sort -@ 4 -T /tmp/hoge -o hoge_sorted.bam hoge.bam [/shell]
としたと …
某所の大規模停電の影響を受けて自宅サーバーのネットワークの不具合が起こり、でこのブログが見れなくなって …
理研和光にて。NGSなツールたちをDocker上で実行するための検討を引き続き。 そのためにはそれぞれのツールを実際に動かしてみないと、ということでいろんなツールの使い方 …
MacBookProを使える状態にセットアップする機会があり、自分で能動的に入れたものをメモとして残しておく。
Xcode: 必須
Homebrew: macosx用パッケージマネージャー
vagrant: docker on macosx
Java: 最初から入っていないので
skype: chat用
f.lux …
ChIPseqな解析でよく用いられるMACS(Model-based Analysis for ChIP-Seq)。てっきりhomebrewにあると思ってbrew install MACS2とかしてみたものの、ない模様。こんな有名なツールがまさか、と思って調べてみたら…別の手段で簡単に入る …
SPARQLthon29では何故かネットワークの調子も悪く(DHCPが急に取れなくなったり)。容量の大きなFASTQファイルが手元になく、ダウンロードしてくることもかなわず、実行できずじまい。そこで、RNAseqなFASTQファイルを入手してdocker runのテスト。coreos上で
[shell]
coreos> docker run -it -v pwd
:/data aewing …
国内版BioHackathon BH14.14に出て、dockerまわりでやることが出てきたので、SPARQLthon参加。今年度最初の方に統合化支援との連携を探る目的で出ていたが、引っ越しやらなん …
これまで、非モデル生物とか、古典的なモデルでない生物とか、いろんな言い方をしてきた。あらゆる生物種のゲノム配 …
直前のいくつかのエントリを見て分かるように、北海道札幌市の定山渓ビューホテルで開かれた国内版バイオハッ …
国内版Biohackathon(BH14.14)最終日。これまでやってきたことは
にすべてアップ。つくったDocker imageは以下の4つ。
hmmemit
debian-hmmsearch
debian-hmmsearch2 (profileHMMと検索対象DBがdocker runの引数として選べる)
ubuntu-tophat
ubuntu-tophatに関しては、defaultのcoreosでは動かないという問題点あり。現状判明し …
国内版Biohackathon(BH14.14)4日目。昨日までのhmmerとは打って変わってより実際的なNGS解析のそれをということで、RNAseqにおけるspliced read mapperとしてデファクト・スタンダードのtophatを実行するそれに挑戦。 tophatのパッケージがdebianにはないらしいということで、ubuntuベースに。昨日まで作っていたhmmsearch用のDockerfileと同様に実行部分はシェルスクリプトに分けて実装。DockerhubのAutomated Buildを利用しているため、ファイル自体はgithubにあるが、再 …
国内版Biohackathon(BH14.14)3日目。今日もDockerチームにて。昨日作成したhmmsearchを実行するDockerfileの汎用化。引数としてprofile HMMと検索対象DBを指定できるように。最後の行でしか引数指定できないようなので、別にシェ …
国内版Biohackathon(BH14.14)2日目。まずは、昨日の続き。DockerfileをDockerHubに表示したいということで、GitHubとDockerHubの連携をやってみる。
まずは、'New repository'から新規に作成し(hmmemitという名前)、必要なファイルをgithubに上げる。 [shell] git add Dockerfile Sod_Cu.hmm git commit -m "first commit" git push -u origin master [/shell …
国内版Biohackathon(BH14.14)1日目。色々話しあった結果、Dockerチームとして活動することに。これまでローカルに動かしてきた解析スクリプト(レシピ)をDockerfileとして記述していこうかということで。まずは動かし方を。
[shell] brew tap phinze …
古典的なモデルでない生物を実験材料として使う際、当然モデル生物データベースは用意されていないので、自らが …