SPARQLthon@新潟大学
Written by bonohu in misc on 日 24 7月 2016.
明日、明後日(2016/7/25-26)に、新潟大学にてSPAQRLthon開催(SPARQLthon46)。いつもの柏とは別の地域で開催することは、RDFの普及という意味で重要だと思う今日このごろ。そういった研究活動をしてい …
明日、明後日(2016/7/25-26)に、新潟大学にてSPAQRLthon開催(SPARQLthon46)。いつもの柏とは別の地域で開催することは、RDFの普及という意味で重要だと思う今日このごろ。そういった研究活動をしてい …
前職では、基礎と臨床を医学の研究をやろうということで、ノーベル賞を取った線虫(C.elegans)を使ったprogramed cell deathの研究が当時もてはやされていたこともあってそちら方面の可能性を探っていた(ちなみに、「き …
データベース(DB)、とくに塩基配列DBは公共DBに登録しないと論文が受理されないこともあって、DBのアクセッション番号(ID)に関する認知度は高いようである。しかしながら、アクセッション番号のバー …
沼津でのSpotfireワークショップ2日目。今日は丸一日で、午前中はトレーニングセッション、午後はPKJ社セッションとJASPUGユーザーセッション。 自分は10年を超える長年のSpotfireユーザーではあるものの、典型的なユーザーと使い方が異な …
今年も沼津駅北口のプラザヴェルデで開催のスポットファイアーワークショップ。2日間開催の1日目は第15回ということで、MedChem(Medicinal Chemistry)な内容。2日目は第16回目で、バイオHCS(High Content …
明日明後日、2016年7月20,21日は昨年に引き続き、沼津駅北口のプラザヴェルデにてスポットファイアーワークショップ(創薬研究領域)が開催。今年は …
静岡県富士市吉原で開催されたShizuoka.py #5に参加してきた。第3回目から参加しているものの、自分でscratchからPythonのコードを書くことは少なく、そのリソースを利用させてもらって何かを …
pitagora-galaxy meet-up(2016/07)に飛び入り参加してきた。昨年にGalaxy Workshop Tokyo 2015に参加し、VirtualBoxを使って仮想環境でデータ解析する仕組みのチュートリアルを受けて以来。それから1年間経ってのアップデートを期待して。 ここにある手順通りに再実行。まずはバー …
2016年7月5,6日に広島大学霞キャンパスでの統合データベース講習会AJACS安芸に講師として参りました。今年度、1回目。 講師としては、1日目の「遺伝子発現DBの使い方」と2日目の「ライフサイエ …
このブログでも紹介したカイコアノテーションパイプラインは急に思い立ってそれを開発したわけでなく、大学院 …
かつて埼玉県狭山地方に勤務していた時にSayaMatcherという計算する仕組みを作って、転写因子結合配列などをゲノム配列から探しだし、それらをBED形式やらで出力し、ゲノム …
今年も早いもので前半戦終了。出張はかなり多かったようで、外泊数がなんと合計43泊。一月に約7泊ということで、勤務日の約1/3は外勤だったという計算。どこ …
「オミックス医学とバイオインフォマティクス」というお題で。やはり90分では短く、珍しく時間オーバー気味。じっくり教えるには …
最終日。ひきつづき。そして最後にwrapアップ。今回、AOE2のデータ作成パイプラインの構築に取り組み、機械的に単純にindexとなるデータを作るところまではできた。それらの成果(スクリプト群)はgithubのAOEプロジェクトのレポジトリに。今後は重複している …
一昨日に仕込んだArrayExpress(AE)のファイルリストの取得が終わったので、AOE1の更新を続き。もうちょっとファイルリストが高速に得られれ …
中間発表を1時間で。午後はExcursionということで、目の前の温海岳(標高736m)にbug取りがてら山登り。意外に険しい山道だったが、珍しい蝶が採れたらしい。
温泉インフォマティクス研究会足湯支部に入部するも、蚊と雨の襲撃により敢え無く延期。今月のAOE1の更新も進めつつ、昨日入電した裏 …
本日6/13から6/17までBioHackathon。今回も引き続きAOE2.0に向けてhackします。メタボにならないように、今回はランチはホテルでとらない作戦で。夜にガッツリ方 …
今年もBioHackathonは、シンポジウムからの参加。皆さん、進捗していますなあ。
今年度(2016年度)から国際学術情報流通基盤整備事業(SPARC Japan)のセミナー企画ワーキンググループのメンバーとして関わるこ …
Homebrew便利だが、しばらく経つとソフトウェアがアップデートされていってローカルに持っているインデックス情報が古くなり …
新規なモデル生物では、ゲノム配列が公開されていても多くの場合染色体ごとに配列が一本につながっていない。ど …
今回が8回目のMishima.syk(三島創(製?)薬勉強会)。三島で開催されたSPARQLthon44の次の日に開催をはたらきかけて、異分野交流を目論んでみた。み …
Trinityの出力結果は、転写単位ごとの塩基配列のFASTA形式ファイルだが、付属のプログラム(align_and_estimate_abundance.pl)を使うと、転写量を見積もって定量、そして出力してくれる。TrinityのウェブサイトのTrinity …
de novo transcriptome assemblyをするソフトウェアの定番のTrinityがhomebrewで入って動くようになりました(v2.2.0)。これまでhomebrewには入っていたものの、私の環境ではきちんのインストールできないでいました。必要なときはその都度DDBJのスパコンにお世話になっておりました。 それ …
昨今、インターネット上には利用可能なデータリソースが溢れている。 データベース(DB)とは、生命の持つ情報を再利用 …
NGSデータ解析の出発点は、シーケンサーやSRA (Sequence Read Archive)から取得したFASTQ形式のファイルなのは同じだろうが、これを圧縮しない(ファイル拡張子が.fqや.fastqのことが多いが、ようするにテキスト形式のフ …
バイオの業界ではとくに、IDが重複していることがある。Rでの処理の場合、それでは入力が受け付けてもらえず実行できないことがよくある。そんな時には行番 …
joinというUNIXコマンドは、2つのファイルの同じ値のある行をjoinして、一行にまとめてくれるコマンド。
join -j 1 file1 file2
でタブ区切りテキストのfile1とfile2の一番左側のカラムの値が同じ行が結合されて出力される。
このコマンドのやってくれる事 …
pythonの機械学習ライブラリ。ふとしたキッカケで入れてみようと、思い立ったが吉日。
pythonのバージョン3が入っていなければ、まずそれを。
[shell] brew install -v python3 [/shell]
これでインストールされるpip3を使って必要なライブラリを …
RNA-Seq実験ハンドブックという本が出版されます。出版社のページによれば2016年03月23日発行予定とのこと(2016年3月発行予定に変わっていました)。「RNA-Seqはこうして誕生したーそしてデータ再利用へ」と題したコラムを書かせてもらいました。短いですが、遺伝子発現解析の歴史的な …
続けて同じ場所で開催されたSIG-MBIにかなり久しぶりに参加。SIG-MBIの開催が第60回にもなっていたとは。続けて開催されているのは大変素晴らしい。敬意を表します …
朝からみんなでバスでJAISTに移動して成果報告会。遺伝子発現目次の進捗状況に関して報告。いつもどおり、みんなで議論して情報を共有した …
ArrayExpressのメタデータにBioProjectがなかったので、GEO由来のエントリだけでもBioProjectIDが付けられないか模索中…。すべてのデータをスクレイピングする以外に解決法はないのか?いろいろ調べた結果、結局bioprojectのXML(bioproject.xml)から生成する …
2日目は抽出したメタデータの抜けをチェックして出来る限り取りこぼさないようparserを改良。1つのメタデータに複数のデータ単位が含まれていることをランチ前に発見して、ランチタイム遅延。対処する目処をつけてからカレー、その後本格実装。タグの多様性がみとめられたので、IDの正規表現で最悪補完できるようにした。その …
今日2016年3月14日から、国内版Biohackathon(BH15.15)。2015年15月ということで、2016年3月の開催となったが、このパターンでの開催もついに今回で最後(というかルール破綻)になるとのこと。「SRA/BioProject/BioSample etc …
これからどうなるのか。そう思ったあの日から5年経ち、活動本拠地は静岡県三島市の国立遺伝学研究所に移動したものの …
UNIXのコマンドラインには標準出力と標準エラー出力があります。プログラムの出力結果は通常標準出力で、
[shell] sh run.sh > log.txt [/shell]
とすることでlog.txtにその出力結果が記録されます。このようにしてもまだ画面に何か表 …
grep便利ですね。タブ区切りのテキストで必要な情報を持つ行だけ取ってくるとか、多用されます。ですが、 [shell] grep chr1 hoge.gff [/shell] では1番染色体(chr1)の …
ときすでにsamtoolsのバージョンは1.3。single threadで遅く、時にはそれが律速になっていたsambam変換も並列化されている。 samtools sortの時と同様に、-@フラグで使用するCPU数を指定。例えば、
[shell] samtools view -@ 8 -bS file.sam > file …
大量のファイルの移動が必要な季節になってきましたが、我々DB屋は年がら年中です。複数のディレクトリ階層構造を持ったファイルの同 …
中上級向けの統合データベース講習会AJACSadvanced(AJACSa)の第二弾として、2016年2月25日と26日の両日、国立遺伝学研究所内のDBCLS三島の講習スペースにてAJACSa三島2を実施しました。 参加者は …
すでにDBCLSのニュースでもアナウンスしておりますが、2016年2月25日と26日の両日、国立遺伝学研究所内になるライフサイエンス統合データベースセンターにて、統合データベース講習 …
2016年2月16,17日に理研和光にてSPARQLthon41に参加。引き続き、DBCLSで開発中の遺伝子発現目次AOEに公共遺伝子発現データベースArrayExpress(含むGene Expression Omnibus)に無いデータ(=Transcriptome sequenceによる遺伝子発現定量)を補完するのに取り組む。 SRA(Sequence Read Archive)のデータをSolrで検索できるようにしてもらったのを利用して、加えるべきデータセ …
2016年1月26,27日に鹿児島大学桜ヶ丘キャンパスでの統合データベース講習会AJACS薩摩に講師として参りました。今年度、3回目。
前回参加のAJACS津軽では、遺伝子発現DBの使い方とR/Bioconductorを使ったデータ解析入門を担当し、遺伝 …
統合データベース講習会の資料はmarkdownで書かれており、それらをgithub上にアップすることで講習会資料のPDFになったり、統合TVのウェブサイトから見えるようになったり、systematicに処理されるようになっています。それをアップするにはAJACS-trainingさんにpull requestを送り、以前のコンテンツと置き換え …
2015年は、5月に領域融合レビュー「次世代シークエンサーにより得られたデータの解析」を公開、10月に「次世代シークエンサーDRY解析教本」を出 …
印刷物には誤表示等はつきものですが。Dry解析教本にもそれが見つかってまいりました。とくにUNIXのコマンドに間違いがあるものは問題ですが、そのタイプのものも見つかってきたのでこちらでも。公式な正誤 …
先月のBioHackathonで参加者たちがそれぞれに持ってきた研究紹介のパンフレットを見ていて発見したのが、このsequenceserver。何の事はない、Ruby製のlocalBLASTのGUIなinterfaceなのだが、これがinteractiveに複数BLASTをかけてそのalignmentの結果をチェックしたい時になかなか便利。便利だと思っている点をまとめると
それはqueryに対してどこにヒットしたかという、かつてのpaintBLAST的な出力がトップに出る
queryをコピペしたら塩基配列かアミノ酸配列か自動判別してくれる
検索対象のDBが …
いよいよ出版されます。本日、2015年10月8日からの第74回日本癌学会学術総会@名古屋国際会議場にて先行発売されます。私自身、今年も癌学会学術総会に出席してお …