「次世代シークエンサーDRY解析教本」2刷
Written by bonohu in NGS_DAT on 木 25 8月 2016.
DRY解析教本ですが、2015年の10月に出版されて早10ヶ月。 その間、「細胞工学」の発刊が最終号を迎えるなどいろいろありましたが、初刷の在庫が無くなってきたとの …
DRY解析教本ですが、2015年の10月に出版されて早10ヶ月。 その間、「細胞工学」の発刊が最終号を迎えるなどいろいろありましたが、初刷の在庫が無くなってきたとの …
トリミングしたうえでfastqcをかけてくれるソフトがこのtrim_galore。CutadaptとFastQCがすでにインストールされていることが必須(以下の使い方だと)。 singleの場合
[shell] trim_galore --fastqc --trim1 hoge.fq [/shell]
ペアエンドの場合
[shell] trim_galore --fastqc --trim1 --paired hoge_1.fq hoge_2.fq [/shell]
ArrayExpressのdataをrsync開始してから1週間。atlasディレクトリは終わったものの、残りの2つ、arrayとexperimentは終わらない。データ転送量的には、合計0.4Tbyteほどで、約44Tbyteと書かれている全体のデータからすると1/100ほど。ただ、全部ミラーしたらこの容量になるのかどうかも今のとこ …
初めての山の日(8/11)、急逝した研究者仲間のtwittererの初盆に名古屋へ。同じ分野の研究者というわけでもなく、オフラインには学会オフ会に …
ストレージの容量は多くの場合ファイルサイズで問題になることが多いが、たくさんファイルを作るようなプログ …
2016年8月12日日本時間午後2時頃、ArrayExpressのFTPにあるデータをミラー開始。ポイントはFTPではなく、rsyncでやっているというところ。先月のSPARQLthonで調べてわかったことを元に。プロセスがコケていないか、ディスク容量は大丈夫かをちょくちょく見張りつ …
[amazon template=thumbnail&asin=4797382309]
新米探偵本、ようやく通読。出てきたことが一度だけでなく、俵太のまとめと天羽社長の統計学指南で波状 …
先日の沼津でのワークショップで伺った、嬉しいニュース。
アカデミアの方々などに無料でご利用頂けるようになりました。 TIBCO started free of charge Spotfire License. http://spotfire.tibco.com/better-world-donation-program/
本当かと思 …
bam形式なリファレンスゲノムへのアラインメントの情報をwig形式のcoverageファイルへ変換。 実は昔もやったことがあり、ググって出てくるawkのワインライナーでなんとか凌いでいたが、今ネット検索するとbam2wigというコマンド化されたPerlスクリプトをgithubに発見。今回はこ …
東京白金台の北里大学薬学部にて、「ゲノムと遺伝子発現DBの現状ートランスオミクスのための基礎知識」というタイトルで、30分ほど話した。ワークショップの前座。
そのうち統合 …
昨日の続き。直で職場のサーバーにsshできないのはやはり不便だ。 やはり、1日経ってもファイルリストの取得、終わっていない…。定期的にrsyncするように早くしたい。が、昼前に終わったので、実体の取得を開始 …
今回はいつもと違い、DBCLSではなく新潟大学での開催ということで、RDFやSPARQLの入門的な講習会がほぼ1日開催された。こういうスタイルは新しいが、こういう形の地方行脚重要。 こちらはいつものハッカソンで …
明日、明後日(2016/7/25-26)に、新潟大学にてSPAQRLthon開催(SPARQLthon46)。いつもの柏とは別の地域で開催することは、RDFの普及という意味で重要だと思う今日このごろ。そういった研究活動をしてい …
前職では、基礎と臨床を医学の研究をやろうということで、ノーベル賞を取った線虫(C.elegans)を使ったprogramed cell deathの研究が当時もてはやされていたこともあってそちら方面の可能性を探っていた(ちなみに、「き …
データベース(DB)、とくに塩基配列DBは公共DBに登録しないと論文が受理されないこともあって、DBのアクセッション番号(ID)に関する認知度は高いようである。しかしながら、アクセッション番号のバー …
沼津でのSpotfireワークショップ2日目。今日は丸一日で、午前中はトレーニングセッション、午後はPKJ社セッションとJASPUGユーザーセッション。 自分は10年を超える長年のSpotfireユーザーではあるものの、典型的なユーザーと使い方が異な …
今年も沼津駅北口のプラザヴェルデで開催のスポットファイアーワークショップ。2日間開催の1日目は第15回ということで、MedChem(Medicinal Chemistry)な内容。2日目は第16回目で、バイオHCS(High Content …
明日明後日、2016年7月20,21日は昨年に引き続き、沼津駅北口のプラザヴェルデにてスポットファイアーワークショップ(創薬研究領域)が開催。今年は …
静岡県富士市吉原で開催されたShizuoka.py #5に参加してきた。第3回目から参加しているものの、自分でscratchからPythonのコードを書くことは少なく、そのリソースを利用させてもらって何かを …
pitagora-galaxy meet-up(2016/07)に飛び入り参加してきた。昨年にGalaxy Workshop Tokyo 2015に参加し、VirtualBoxを使って仮想環境でデータ解析する仕組みのチュートリアルを受けて以来。それから1年間経ってのアップデートを期待して。 ここにある手順通りに再実行。まずはバー …
2016年7月5,6日に広島大学霞キャンパスでの統合データベース講習会AJACS安芸に講師として参りました。今年度、1回目。 講師としては、1日目の「遺伝子発現DBの使い方」と2日目の「ライフサイエ …
このブログでも紹介したカイコアノテーションパイプラインは急に思い立ってそれを開発したわけでなく、大学院 …
かつて埼玉県狭山地方に勤務していた時にSayaMatcherという計算する仕組みを作って、転写因子結合配列などをゲノム配列から探しだし、それらをBED形式やらで出力し、ゲノム …
今年も早いもので前半戦終了。出張はかなり多かったようで、外泊数がなんと合計43泊。一月に約7泊ということで、勤務日の約1/3は外勤だったという計算。どこ …
「オミックス医学とバイオインフォマティクス」というお題で。やはり90分では短く、珍しく時間オーバー気味。じっくり教えるには …
最終日。ひきつづき。そして最後にwrapアップ。今回、AOE2のデータ作成パイプラインの構築に取り組み、機械的に単純にindexとなるデータを作るところまではできた。それらの成果(スクリプト群)はgithubのAOEプロジェクトのレポジトリに。今後は重複している …
一昨日に仕込んだArrayExpress(AE)のファイルリストの取得が終わったので、AOE1の更新を続き。もうちょっとファイルリストが高速に得られれ …
中間発表を1時間で。午後はExcursionということで、目の前の温海岳(標高736m)にbug取りがてら山登り。意外に険しい山道だったが、珍しい蝶が採れたらしい。
温泉インフォマティクス研究会足湯支部に入部するも、蚊と雨の襲撃により敢え無く延期。今月のAOE1の更新も進めつつ、昨日入電した裏 …
本日6/13から6/17までBioHackathon。今回も引き続きAOE2.0に向けてhackします。メタボにならないように、今回はランチはホテルでとらない作戦で。夜にガッツリ方 …
今年もBioHackathonは、シンポジウムからの参加。皆さん、進捗していますなあ。
今年度(2016年度)から国際学術情報流通基盤整備事業(SPARC Japan)のセミナー企画ワーキンググループのメンバーとして関わるこ …
Homebrew便利だが、しばらく経つとソフトウェアがアップデートされていってローカルに持っているインデックス情報が古くなり …
新規なモデル生物では、ゲノム配列が公開されていても多くの場合染色体ごとに配列が一本につながっていない。ど …
今回が8回目のMishima.syk(三島創(製?)薬勉強会)。三島で開催されたSPARQLthon44の次の日に開催をはたらきかけて、異分野交流を目論んでみた。み …
Trinityの出力結果は、転写単位ごとの塩基配列のFASTA形式ファイルだが、付属のプログラム(align_and_estimate_abundance.pl)を使うと、転写量を見積もって定量、そして出力してくれる。TrinityのウェブサイトのTrinity …
de novo transcriptome assemblyをするソフトウェアの定番のTrinityがhomebrewで入って動くようになりました(v2.2.0)。これまでhomebrewには入っていたものの、私の環境ではきちんのインストールできないでいました。必要なときはその都度DDBJのスパコンにお世話になっておりました。 それ …
昨今、インターネット上には利用可能なデータリソースが溢れている。 データベース(DB)とは、生命の持つ情報を再利用 …
NGSデータ解析の出発点は、シーケンサーやSRA (Sequence Read Archive)から取得したFASTQ形式のファイルなのは同じだろうが、これを圧縮しない(ファイル拡張子が.fqや.fastqのことが多いが、ようするにテキスト形式のフ …
バイオの業界ではとくに、IDが重複していることがある。Rでの処理の場合、それでは入力が受け付けてもらえず実行できないことがよくある。そんな時には行番 …
joinというUNIXコマンドは、2つのファイルの同じ値のある行をjoinして、一行にまとめてくれるコマンド。
join -j 1 file1 file2
でタブ区切りテキストのfile1とfile2の一番左側のカラムの値が同じ行が結合されて出力される。
このコマンドのやってくれる事 …
pythonの機械学習ライブラリ。ふとしたキッカケで入れてみようと、思い立ったが吉日。
pythonのバージョン3が入っていなければ、まずそれを。
[shell] brew install -v python3 [/shell]
これでインストールされるpip3を使って必要なライブラリを …
RNA-Seq実験ハンドブックという本が出版されます。出版社のページによれば2016年03月23日発行予定とのこと(2016年3月発行予定に変わっていました)。「RNA-Seqはこうして誕生したーそしてデータ再利用へ」と題したコラムを書かせてもらいました。短いですが、遺伝子発現解析の歴史的な …
続けて同じ場所で開催されたSIG-MBIにかなり久しぶりに参加。SIG-MBIの開催が第60回にもなっていたとは。続けて開催されているのは大変素晴らしい。敬意を表します …
朝からみんなでバスでJAISTに移動して成果報告会。遺伝子発現目次の進捗状況に関して報告。いつもどおり、みんなで議論して情報を共有した …
ArrayExpressのメタデータにBioProjectがなかったので、GEO由来のエントリだけでもBioProjectIDが付けられないか模索中…。すべてのデータをスクレイピングする以外に解決法はないのか?いろいろ調べた結果、結局bioprojectのXML(bioproject.xml)から生成する …
2日目は抽出したメタデータの抜けをチェックして出来る限り取りこぼさないようparserを改良。1つのメタデータに複数のデータ単位が含まれていることをランチ前に発見して、ランチタイム遅延。対処する目処をつけてからカレー、その後本格実装。タグの多様性がみとめられたので、IDの正規表現で最悪補完できるようにした。その …
今日2016年3月14日から、国内版Biohackathon(BH15.15)。2015年15月ということで、2016年3月の開催となったが、このパターンでの開催もついに今回で最後(というかルール破綻)になるとのこと。「SRA/BioProject/BioSample etc …
これからどうなるのか。そう思ったあの日から5年経ち、活動本拠地は静岡県三島市の国立遺伝学研究所に移動したものの …
UNIXのコマンドラインには標準出力と標準エラー出力があります。プログラムの出力結果は通常標準出力で、
[shell] sh run.sh > log.txt [/shell]
とすることでlog.txtにその出力結果が記録されます。このようにしてもまだ画面に何か表 …