2016年前半戦終了
Written by bonohu in misc on 木 30 6月 2016.
今年も早いもので前半戦終了。出張はかなり多かったようで、外泊数がなんと合計43泊。一月に約7泊ということで、勤務日の約1/3は外勤だったという計算。どこ …
今年も早いもので前半戦終了。出張はかなり多かったようで、外泊数がなんと合計43泊。一月に約7泊ということで、勤務日の約1/3は外勤だったという計算。どこ …
「オミックス医学とバイオインフォマティクス」というお題で。やはり90分では短く、珍しく時間オーバー気味。じっくり教えるには …
最終日。ひきつづき。そして最後にwrapアップ。今回、AOE2のデータ作成パイプラインの構築に取り組み、機械的に単純にindexとなるデータを作るところまではできた。それらの成果(スクリプト群)はgithubのAOEプロジェクトのレポジトリに。今後は重複している …
一昨日に仕込んだArrayExpress(AE)のファイルリストの取得が終わったので、AOE1の更新を続き。もうちょっとファイルリストが高速に得られれ …
中間発表を1時間で。午後はExcursionということで、目の前の温海岳(標高736m)にbug取りがてら山登り。意外に険しい山道だったが、珍しい蝶が採れたらしい。
温泉インフォマティクス研究会足湯支部に入部するも、蚊と雨の襲撃により敢え無く延期。今月のAOE1の更新も進めつつ、昨日入電した裏 …
本日6/13から6/17までBioHackathon。今回も引き続きAOE2.0に向けてhackします。メタボにならないように、今回はランチはホテルでとらない作戦で。夜にガッツリ方 …
今年もBioHackathonは、シンポジウムからの参加。皆さん、進捗していますなあ。
今年度(2016年度)から国際学術情報流通基盤整備事業(SPARC Japan)のセミナー企画ワーキンググループのメンバーとして関わるこ …
Homebrew便利だが、しばらく経つとソフトウェアがアップデートされていってローカルに持っているインデックス情報が古くなり …
新規なモデル生物では、ゲノム配列が公開されていても多くの場合染色体ごとに配列が一本につながっていない。ど …
今回が8回目のMishima.syk(三島創(製?)薬勉強会)。三島で開催されたSPARQLthon44の次の日に開催をはたらきかけて、異分野交流を目論んでみた。み …
Trinityの出力結果は、転写単位ごとの塩基配列のFASTA形式ファイルだが、付属のプログラム(align_and_estimate_abundance.pl)を使うと、転写量を見積もって定量、そして出力してくれる。TrinityのウェブサイトのTrinity …
de novo transcriptome assemblyをするソフトウェアの定番のTrinityがhomebrewで入って動くようになりました(v2.2.0)。これまでhomebrewには入っていたものの、私の環境ではきちんのインストールできないでいました。必要なときはその都度DDBJのスパコンにお世話になっておりました。 それ …
昨今、インターネット上には利用可能なデータリソースが溢れている。 データベース(DB)とは、生命の持つ情報を再利用 …
NGSデータ解析の出発点は、シーケンサーやSRA (Sequence Read Archive)から取得したFASTQ形式のファイルなのは同じだろうが、これを圧縮しない(ファイル拡張子が.fqや.fastqのことが多いが、ようするにテキスト形式のフ …
バイオの業界ではとくに、IDが重複していることがある。Rでの処理の場合、それでは入力が受け付けてもらえず実行できないことがよくある。そんな時には行番 …
joinというUNIXコマンドは、2つのファイルの同じ値のある行をjoinして、一行にまとめてくれるコマンド。
join -j 1 file1 file2
でタブ区切りテキストのfile1とfile2の一番左側のカラムの値が同じ行が結合されて出力される。
このコマンドのやってくれる事 …
pythonの機械学習ライブラリ。ふとしたキッカケで入れてみようと、思い立ったが吉日。
pythonのバージョン3が入っていなければ、まずそれを。
[shell] brew install -v python3 [/shell]
これでインストールされるpip3を使って必要なライブラリを …
RNA-Seq実験ハンドブックという本が出版されます。出版社のページによれば2016年03月23日発行予定とのこと(2016年3月発行予定に変わっていました)。「RNA-Seqはこうして誕生したーそしてデータ再利用へ」と題したコラムを書かせてもらいました。短いですが、遺伝子発現解析の歴史的な …
続けて同じ場所で開催されたSIG-MBIにかなり久しぶりに参加。SIG-MBIの開催が第60回にもなっていたとは。続けて開催されているのは大変素晴らしい。敬意を表します …
朝からみんなでバスでJAISTに移動して成果報告会。遺伝子発現目次の進捗状況に関して報告。いつもどおり、みんなで議論して情報を共有した …
ArrayExpressのメタデータにBioProjectがなかったので、GEO由来のエントリだけでもBioProjectIDが付けられないか模索中…。すべてのデータをスクレイピングする以外に解決法はないのか?いろいろ調べた結果、結局bioprojectのXML(bioproject.xml)から生成する …
2日目は抽出したメタデータの抜けをチェックして出来る限り取りこぼさないようparserを改良。1つのメタデータに複数のデータ単位が含まれていることをランチ前に発見して、ランチタイム遅延。対処する目処をつけてからカレー、その後本格実装。タグの多様性がみとめられたので、IDの正規表現で最悪補完できるようにした。その …
今日2016年3月14日から、国内版Biohackathon(BH15.15)。2015年15月ということで、2016年3月の開催となったが、このパターンでの開催もついに今回で最後(というかルール破綻)になるとのこと。「SRA/BioProject/BioSample etc …
これからどうなるのか。そう思ったあの日から5年経ち、活動本拠地は静岡県三島市の国立遺伝学研究所に移動したものの …
UNIXのコマンドラインには標準出力と標準エラー出力があります。プログラムの出力結果は通常標準出力で、
[shell] sh run.sh > log.txt [/shell]
とすることでlog.txtにその出力結果が記録されます。このようにしてもまだ画面に何か表 …
grep便利ですね。タブ区切りのテキストで必要な情報を持つ行だけ取ってくるとか、多用されます。ですが、 [shell] grep chr1 hoge.gff [/shell] では1番染色体(chr1)の …
ときすでにsamtoolsのバージョンは1.3。single threadで遅く、時にはそれが律速になっていたsambam変換も並列化されている。 samtools sortの時と同様に、-@フラグで使用するCPU数を指定。例えば、
[shell] samtools view -@ 8 -bS file.sam > file …
大量のファイルの移動が必要な季節になってきましたが、我々DB屋は年がら年中です。複数のディレクトリ階層構造を持ったファイルの同 …
2016年2月16,17日に理研和光にてSPARQLthon41に参加。引き続き、DBCLSで開発中の遺伝子発現目次AOEに公共遺伝子発現データベースArrayExpress(含むGene Expression Omnibus)に無いデータ(=Transcriptome sequenceによる遺伝子発現定量)を補完するのに取り組む。 SRA(Sequence Read Archive)のデータをSolrで検索できるようにしてもらったのを利用して、加えるべきデータセ …
2016年1月26,27日に鹿児島大学桜ヶ丘キャンパスでの統合データベース講習会AJACS薩摩に講師として参りました。今年度、3回目。
前回参加のAJACS津軽では、遺伝子発現DBの使い方とR/Bioconductorを使ったデータ解析入門を担当し、遺伝 …
統合データベース講習会の資料はmarkdownで書かれており、それらをgithub上にアップすることで講習会資料のPDFになったり、統合TVのウェブサイトから見えるようになったり、systematicに処理されるようになっています。それをアップするにはAJACS-trainingさんにpull requestを送り、以前のコンテンツと置き換え …
2015年は、5月に領域融合レビュー「次世代シークエンサーにより得られたデータの解析」を公開、10月に「次世代シークエンサーDRY解析教本」を出 …
先月のBioHackathonで参加者たちがそれぞれに持ってきた研究紹介のパンフレットを見ていて発見したのが、このsequenceserver。何の事はない、Ruby製のlocalBLASTのGUIなinterfaceなのだが、これがinteractiveに複数BLASTをかけてそのalignmentの結果をチェックしたい時になかなか便利。便利だと思っている点をまとめると
それはqueryに対してどこにヒットしたかという、かつてのpaintBLAST的な出力がトップに出る
queryをコピペしたら塩基配列かアミノ酸配列か自動判別してくれる
検索対象のDBが …
今年も、10月5日にトーゴーの日シンポジウム。今年は2日にわたって、東京大学弥生講堂・一条ホールにて。全体的な印象としてはデータベ …
2015年9月14日〜18日までの丸一週間、長崎にてBioHackathon2015に参加中。ハッシュタグは #biohack15。今回は、AOEにGEO/ArrayExpressに入っていないRNA-seqデータを含めて、名前の通りAll of Gene expressionデータが検索できるようにしようと目論んでおります。これまで同様、それらのスクリプト …
以下の様な声をたまに聞く。
DDBJのDRAにはFASTQ形式のファイルがなくてダウンロードできない
と。FASTQ形式はテキスト形式で、圧縮しない状態ではディスク容量を喰う。ブログエントリを書いている2015年8月末時点ですでに約2.5ペタバイトものデータ容量がSRAだけであり、その …
2015年9月3,4日に弘前大学での統合データベース講習会AJACS津軽に講師として参ります。今年度二回目の「代表招集」。
paintBLASTとか知っているだろうか?かつてNCBIのウェブサイトでBLAST検索した時に上部に、queryのどの部分にDB中の配列がマッチしたかを可視化してくれるクリッカブルイメージがあったと思うのだが、それを生成するためのツールがそれだったと思う。 それを使ってBLASTの結果を可視化したいと思い、探したのだが、どうも維持されてい …
データ量は大きくなるばかりで、それをファイル圧縮して保存しておくなり、転送するなりが当たり前になっている …
2015/08/10-11は、DBCLS三島というか、DDBJのある国立遺伝学研究所にてSPARQLthon35回目。前回の続きで、SRAに登録されているものの遺伝子発現データベースに登録されていないエントリがどれぐらいあるかの調査。予想に反して多かったので、別ソースでIDの対応が付けられないか、SRAをやっている同僚の仲里さんに手伝ってもらって対応をとってみた。
前回、5234ものRNAseqのSRAエントリがBioProjectID単位でArrayExpress(GEO)に載っていないというショッキン …
screenの使い方の投稿の修正をポストしたついでにtwitterに流したら、byobuというものがあってこっちのほうがナウでヤングだという御意見を頂戴する。Linuxでの紹介記事も教えてもらったが、
[shell] brew install -v byobu [/shell]
したらやっぱりhomebrewにもあってサクッと入った。細かい使い方は全く一 …
2015/07/16-17の両日は、SPARQLthonの34回目でDBCLS柏。前回からやっている、SRAに登録されているものGEOやArrayExpressといった遺伝子発現データベースに載っていないデータをリストアップしてみようの続き。比較するために、BioProjectのIDに変換して同じだたかどうかを判定。データゴニョゴニョは前回でやっていたので、それの解釈が主な …
コマンドラインでのデータ処理はすぐに終わらないものもあります。解析すべきデータ量が多い昨今、とくにその傾 …
2015/06/22-23の両日は、SPARQLthonの33回目でDBCLS柏。以前より、この会で取り組み続けている「NGSデータ解析ツールのDocker化とその環境づくり」を続けてやっているところ。最近は主にRNAseqデータの定量をするためのそれに取り組んでいます。日本のSRA(=DRA)に登録され …
ぼうのブログの「2010年代のバイオインフォマティクス」カテゴリを創設したときに
概念的なまとめを書いた「薄い本」パート
「データ解析プロトコル」パート …
外部での講演、講義、研究打ち合わせが続いた2015年春の大型連休の前後だった。並行していろいろ書き物。振り返ってみると悲しいことを忘れようと …
IGVに表示するためのGFFを出力する捨てコード(Perl)書き。入力はBLASTの結果のタブ区切り出力(-outfmt 6指定して出てくるもの)。以下のコードをhoge.prlとして、 [shell] perl hoge.prl sample1 < BLASTout.txt > BLASTout.gff [/shell] のようにして使う。
9カラム目のattributesは任意だと思っていたのだが、こ …
NCBI Homologeneからいろんな生物種でのある遺伝子のホモログをリストアップした際、デフォルトではそれのmultiFASTA形式ファイルでgiとRefSeqのIDがラベルとなって出力される。それでは人間様にとってはぱっと見わかりにくいので、FASTAヘッダ中に[Homo sapiens]のように含まれている …