Category: misc

Genome-guided Trinity

Written by bonohu in misc on 木 25 5月 2017.

ゲノム配列も読んである場合に使えるGenome-guided Trinity De novo Transcriptome Assembly。まずは、TopHatやSTARなどでリードをゲノム配列マッピング(RNA用)して、その結果のBAMファイル(以下の例ではhogenome.bam)でde novo transcriptome assemblyを実行できる。 [shell] time Trinity --genome_guided_bam hogenome.bam --genome_guided_max_intron 10000 --max_memory 64G --CPU 24 [/shell]

Continue reading »


SAMファイルをmerge?

Written by bonohu in misc on 水 24 5月 2017.

SAMファイルをmergeしてからBAMファイルに変換してsortしようとしたが。一度、BAMに変換してからsortするしかないのか? まず1ファイルづつ、SAM->BAM変換。 [shell] for f in .sam; do g="${f%.}" time samtools view -@ 4 -bS $f > $g.bam done [/shell] それらをmergeして、そのままsort。 [shell] time samtools merge -@ 4 - *.bam | time samtools sort -@ 4 -o merged.bam - [/shell] sortする際のtemporary領域を/tmp以下に指定した方がなおよいかも。具体的には-T /tmp/hogeのオプションををsortのコマンドに足す。

Continue reading »


StringTie

Written by bonohu in misc on 火 23 5月 2017.

RNA-seqのためのtranscript assemblyとquantificationのプログラムStringTie。またオプションが変わっているかもしれんが、前に動かした時のそれ。 [shell] stringtie fuga.bam -p 4 -o fuga.gtf -G hogenome.gff -A fuga_abd.txt [/shell] -Gで指定しているhogenome.gffはGuideとなるreference annotation。-Aのそれがgene abundance estimation。-oでassembled transcriptsの出力を指定(GTFファイル)。

Continue reading »


hisat2

Written by bonohu in misc on 月 22 5月 2017.

hisat2でreference genomeにmappingする場合。hisat2のウェブサイトにすでにindexずみのそれがある場合はしなくていいが、まずはindex作成。hisat2-buildコマンドにて。 [shell] hisat2-build -p 4 hogenome.fa hoge [/shell] そして、実際のmapping。 [shell] hisat2 -p 4 -x hoge -1 fuga_1.fastq -2 fuga_2.fastq -S fuga.sam [/shell] 出力はSAM形式であることに注意。

Continue reading »


pip update

Written by bonohu in misc on 金 19 5月 2017.

pip updateコマンドはないので、pipで入れたパッケージのアップデートは以下のようにする。 [shell] pip3 list --outdated | awk '{print $1}' | xargs pip3 install -U [/shell] そろそろ、python3をデフォルトのpythonにして、version3系のpipをpip3と打たないで済むようにしたいところ。

Continue reading »


ChIPデータのアノテーション

Written by bonohu in misc on 木 18 5月 2017.

近頃はChromatin ImmunoPrecipitation(ChIP)データの再利用がしやすくなっている。それらのデータをアノテーションしているDBとして、UCSC Genome BrowserのTrackにも入っているthe Open Regulatory Annotation database (ORegAnno)に注目していたが。現状temporalなページになっていて、だがデータはダウンロードできる状況。そのうち、復活するのだろうか?

Continue reading »


SPARQLthon56 day2

Written by bonohu in misc on 火 16 5月 2017.

統合TVのコンテンツ(.movファイル)だけでなく、Togo Picture Galleryのコンテンツも生命科学系データベースアーカイブに移行。統合TV関連コンテンツの完全クラウド化が実現した。そしてついに、この日を持ってtdiary版統合TVウェブインターフェースが廃止となった。「togotv+キーワード」でググった時にそちらが優先的に出るのがずっと気になっていたのだが、今回の廃止でついに現在の三代目インターフェースに統一されることに。関係者の皆さん、おつかれさまでした! AOEの更新は結局終わらず、継続課題に。

Continue reading »


SPARQLthon56 day1

Written by bonohu in misc on 月 15 5月 2017.

AOEの追加機能の計算をpythonでやろうとするが、データがでかすぎて思うようにできず。できる手段を探しつつ、データをまとめて減らすことも検討。 メタデータの仕様に変更があったようで、それの原因究明。やはり、これまで取れていたメタデータがなくなっている。どこからそれを取ってくるか、要検討。

Continue reading »


転置するUNIXコマンド

Written by bonohu in misc on 金 12 5月 2017.

きっとあるだろうと思ったら、やっぱりググって出て来たこのページを参考に。 transposeというコマンドもあるらしいが、ここは手堅くawkで。とおもったら、メモリ不足で途中でkillされた。以下のdatamashコマンドを使うやり方だと数万x数十万の行列の転置が(少々かかったが)できた。 [shell] brew install -v datamash datamash transpose < matrix.txt > transposed.txt [/shell] いよいよpythonでのコーディング覚醒の悪寒。

Continue reading »


みんなのPython勉強会#24

Written by bonohu in misc on 水 10 5月 2017.

みんなのPython勉強会に参加してきた。今回、奇しくも第24回目。月1回なので、ちょうど丸2年ということだった。 内容的にはそれぞれの方の会社で開発されているツールやそれにまつわる周辺情報。この種の会への参加が久しぶりだったので、勉強になったし、新鮮だった。

Continue reading »



ぶらっとBLAT

Written by bonohu in misc on 日 07 5月 2017.

BLATはThe BLAST Like Alignment Toolで、UCSC Genome Browser のサイトにあるリファレンスゲノム配列に特化した配列類似性というか配列マッピングツールである。ゲノムランディングツールとも呼ばれる。だが、商用利用にはライセンスが必要なためか、便利なのだが広まっていない。そういうツールだからHomebrewにはまさか入っていないだろう、と。 ぶらっと [shell] brew install -v blat [/shell] してみたら、インストールが始まった…。商用でなければアカデミア、非商用、個人利用はライセンスいらない模様。ちなみに [shell] blat refgenome.fa query.fa output.psl [/shell] という感じで使い、出力はPSL形式で<kbd.output.pslに。BWAやbowtie、BLASTのように実行前に特別なindexingは必要ない。

Continue reading »


ゲゲゲのゲノム

Written by bonohu in misc on 土 06 5月 2017.

配列パターン検索はリファレンスゲノム中に探すのであれば、ゲゲゲのゲノムことGGGenomeでやるのが手っ取り早い。ゲノム中で一気に探しておいて、その領域がどういった場所であったかは後で絞り込むというやり方で。 AGGTCANNNTGACCTというパターンに一塩基ミスマッチを許してヒトリファレンスゲノム(hg38)中に探すのであれば、以下のURLで。

<a href="http://gggenome.dbcls.jp/hg38/1/AGGTCANNNTGACCT" target="_blank">http://gggenome.dbcls.jp/hg38/1/AGGTCANNNTGACCT</a>

また、この結果を大量取得するには。例えばGFF3で保存するときにはURLの最後に.gffをつければGFF3形式で保存できる。 [shell] curl -O http://gggenome.dbcls.jp/hg38/1/AGGTCANNNTGACCT.gff [/shell] てな具合に。結果はカレントディレクトリにAGGTCANNNTGACCT.gffというファイル名で。GFF3形式の他に、単なるテキスト(txt …

Continue reading »


曖昧配列パターン検索

Written by bonohu in misc on 金 05 5月 2017.

配列パターン検索はUNIX的にはgrepでできるが、バイオな配列に対してだと、パターン中に改行が入った場合やヘッダ行中の「誤爆」を防ぎたい。さらには、いくつかのミスマッチも許容するには、EMBOSSパッケージのfuzznuc(塩基配列)やfuzzpro(タンパク質配列)を使えばよい。例えば、1塩基のミスマッチまで許して、AGGTCAというパターンをFASTA形式のファイルhoge.faに探す際には以下のようにする。 [shell] fuzznuc -sequence hoge.fa -pattern AGGTCA -pmismatch 1 -outfile hoge.fuzznuc [/shell] -pmismatchというオプションがキモ。

Continue reading »


非モデル生物での転写因子結合サイト予測

Written by bonohu in misc on 木 04 5月 2017.

もちろん、ChIP-seqのデータがあればそれを利用すればいいのだが、多くの場合そういったデータのない非モデル生物種では、転写因子の結合の有無を調べるのに、転写因子結合サイトを予測する。 TRANSFACがそのデータベースとして老舗だが、有料になっている。 しばらくフォローしてなかったけど、JASPARが良くなっている。JASPAR CORE databaseとしてVertebrata, Nematoda, Insecta, Plantae, Fungiと生物グループごとにセットが分けられていて便利になっている。それ自体は狭山茶やっていた10年前に比べて増えているが、予測法自体は変わってない模様で、やはり閾値は自分で決めないといけないのと、生物学的にはfalse positiveが多い。

Continue reading »


UTRの抽出

Written by bonohu in misc on 水 03 5月 2017.

モデル生物ではきっちりアノテーションがなされ、UTR(UnTranslated Region)の配列抽出とか、EnsemblのBiomartを使えば簡単にできる。Ensemblにない生物種でも、Ensembl Genomesのそれを使えば良いのであるが、こちらの場合生物種によってはUTRのアノテーションがなくて抽出できないことがある(あった)。アノテーションがきっちりなされていない非モデル生物のUTRの配列抽出は大変である。 しかしながら、簡単にやる方法があった。それなりにdeepなRNA-seqデータがある場合に、であるが。それはTrinityによるde novo transcript assemblyとその結果を元にOpen Reading Frame(ORF)を予測するTransdecoderによるアノテーションを利用するというものである。Transdecoderを実行(過去のブログエントリ参照)した後に出て来る結果のGFF3形式の出力をBEDファイルとして保存して、それを元に部分配列抽出する。 [shell] grep UTR Trinity.fasta.transdecoder.gff3 > UTR.gff3 bedtools getfasta -fi Trinity.fasta -bed UTR.gff3 -fo UTR.fasta …

Continue reading »


samtools indexも並列化

Written by bonohu in misc on 火 02 5月 2017.

割とすぐに終わるからこれまで特に気にしていなかったが。調べてみたら、やはりsamtools indexもスレッドオプションがあった。他のコマンドと同じで-@のあとに上限スレッド数を指定する。この例の場合、4。 [shell] for f in *.bam; do samtools index -@ 4 $f done [/shell] 並列化の効果あって、結果が得られるのが早くなった。「indexがない!」と別のアプリケーション(例えば、IGV)で怒られてindexを作ることが多いので、早く返ってくるのは嬉しいかと。最初から作っとけよ、という話もないではないが…。 複数のファイルを引数指定できるといいのだが、上述のように書けば済む話なのでよしとする。

Continue reading »


samtools merge の並列化と sort へのパイプライン処理

Written by bonohu in misc on 月 01 5月 2017.

今日から5月。絶好のデータ解析日和ということで(^_^)。 TopHatの結果を処理するコマンドは以前はやっつけでinteractiveに処理していたが、バッチ化というか並列化というか。中間ファイルがかさばるのでパイプライン処理して一気にsortされたファイルだけを出力しようということで先日覚えた-(マイナス)オプションの練習がてら。 状況としては、TopHatの結果のBAMファイルがhoge1,hoge2,hoge3のようなディレクトリの中にaccepted_hits.bamというファイルで入っているのが前提で、そのディレクトリがあるところと同じ階層にhoge.bamというファイル名で新規のソートされたBAMファイルを作成する。

1
2
3
4
5
6
#!/bin/sh
type=$1
p=4
tmp=/tmp
samtools merge -@ $p - ${type}*/accepted_hits.bam 
| samtools sort -@ $p -T $tmp/$type.$$ -o $type.bam -

というスクリプトをsamtools-merge_sort.shという名前で保存して、 [shell] sh samtools-merge_sort.sh …

Continue reading »


BAMからCRAMへのバッチ変換

Written by bonohu in misc on 金 28 4月 2017.

ファイル変換weekになってしまったので、BAMからCRAMへのバッチスクリプトも紹介しておく。 SAMBAM変換とは異なり、リファレンスゲノム配列が必要で、それは各環境で違う場所にあると思うので、それは自分の環境のそれを指定しないといけないことに注意。

1
2
3
4
5
6
7
8
#!/bin/sh
p=4
gpath="/somewhere/reference_genome.fa"
for f in *.bam;
        do g="${f%.*}"
        echo $g
        time samtools view -@ $p -T $gpath -C -o $g.cram $g.bam
done

上記のスクリプト(bam2cram.shとする)を、BAMファイルの置いてあるディレクトリに移動してから、実行する …

Continue reading »


SAMからBAMへのバッチ変換

Written by bonohu in misc on 木 27 4月 2017.

SAMからBAMに変換して、そのまま中間ファイルを作らずにBAMをソートする。それをバッチで処理するには。 SAMファイルの置いてあるディレクトリに移動(cd)してから、以下のようなスクリプトを実行。

1
2
3
4
5
6
7
8
#!/bin/sh
p=4
tmp=/tmp
for f in *.sam;
  do g="${f%.*}"
  echo $g
  samtools view -@ $p -bS $g.sam | samtools sort -@ $p -T $tmp/$g.$$ -o $g.bam  -
done

samtoolsの行の一番最後の-(マイナス記号)がポイント。これが標準入力から入力を受けることを示すコマンドで …

Continue reading »


FAST5からFASTQへの変換

Written by bonohu in misc on 水 26 4月 2017.

現在お世話になっている研究所でOxford Nanopore Technologies のセミナーがあり、参加させていただいた。 大変興味深く聞かせてもらったが、MinIONからの塩基配列データはFAST5という形式で出てくるらしい。そのFAST5から、一般によく使われる配列フォーマットFASTQへの変換をするには、poretoolsというのを使えばよい、となかのひとに教えてもらった。そのporetoolsはやはりHomebrewにあって、 [shell] brew install -v poretools [/shell] でインストールできる。 Usage examplesにあるように [shell] poretools fastq test_data/*.fast5 [/shell] で変換可能。

Continue reading »


Quanto論文

Written by bonohu in misc on 火 25 4月 2017.

ぼうのブログによると、2009年の7月29日に初めてDBCLSに来てくれた当時M1の学生さんだった。その後、Research Assistantとして統合牧場でUNIXとしてのMacの使い方を身につけ、そして学んだことをブログや統合TVとしてまとめてくれた。その後、そのままDBCLSに残ってくれて、後輩RAの指導、ときには自ら統合TVのコンテンツとなり、統合DBプロジェクトを盛り上げる一方、Sequence Read ArchiveのデータをFastQCで計算してその結果を可視化する、というプロジェクトに挑み、それを論文という形にすべく頑張ってくれた。 そして本日、ついに筆頭著者論文をpublish。おめでとう!今後、ますますの活躍を期待しています。

Continue reading »


満を持して

Written by bonohu in misc on 月 24 4月 2017.

ついにこの日がやってきた。各所に働きかけた末に。

That's one small step for (a) man, one giant leap for mankind.

ただの盛り上がったミーティングに過ぎないと思われるが、実はそうでない。 これから快進撃が続くことは、すべて「ゼーレのシナリオ通り」なのである。

Continue reading »


背水の陣

Written by bonohu in misc on 金 21 4月 2017.

配列データ解析、頑張らないと。それを後押しする事象発生。折しもそれ関連の計算を始めていたのは、虫が知らせたか?自分自身の解析からそういうのが見つけられるかどうか、正念場。しまっていこう。

Continue reading »


CRAMによる圧縮効率

Written by bonohu in misc on 木 20 4月 2017.

昨日のエントリの続きで、複数のBAMファイルをCRAMに変換し、そのサイズを比べてみた。

それぞれのファイルサイズを同一行に来るように1行ごとにデータを作って(cram.txtとbam.txt)、その圧縮率をちゃらっとawkで計算。 [shell] paste cram.txt bam.txt | awk '{ print $1,$2, $1/$2 }' [/shell] 結果が以下の通り。見ての通り、3カラム目がその圧縮率となる。

5660626395 9438014937 0.599769
4654129817 7896095631 0.589422
5087289649 8493424101 0.598968
5002310872 8382697420 0.596742
4117487398 7031097146 0.585611
4507556734 7565563208 0.595799
502823996 …

Continue reading »


BAMからCRAMへの変換、そしてその逆

Written by bonohu in misc on 火 18 4月 2017.

BAMからCRAMへの変換を試してみた。samtoolsを使えば良いだけの模様。 [shell] samtools view -@ 4 -T hogenome.fa -C -o hoge.cram hoge.bam [/shell] 3,091,833,154byteあったファイルサイズが、2,325,565,061byteに。約75%になったとは、すごい!CPU時間的には

263.48s user 45.58s system 205% cpu 2:30.72 total

複数CPUを指定効果もあったようだ。これぐらいの時間なら普段はCRAMにしておいて使うときだけBAMというのが実現可能か?

また、逆にCRAMからBAMへの変換もsamtoolsで。 [shell] samtools view -@ 4 -T …

Continue reading »


アクセッション番号すら諸行無常

Written by bonohu in misc on 火 18 4月 2017.

dottupの説明を書くため、EMBOSSのチュートリアルを見ていたら、XL23808というアクセッション番号の配列が使われていた。チュートリアルに出ている配列だし、自分もこれで例を作ろうと、これが何かをDDBJ/ENA/GenBankで検索しても、ググっても出てこない。 別ページにあったFASTA形式のファイルのヘッダにある機能アノテーション情報

Xenopus laevis rhodopsin gene, complete cds.

からググって解決。なんと、IDにもinsertionが入ってXLU23808になっていたというオチ。 そういえば、RefSeqも始まった当初から数字の部分の桁数が増えて、システムによっては異なる遺伝子がリンクされたりということがあったな。 諸行無常である。

Continue reading »


春の心の嵐

Written by bonohu in misc on 月 17 4月 2017.

直接は被っていないものの、それでも学生委員会の同窓会で最近も何回か会った、同学年の同志の訃報。そんな私にも誕生日メッセージを送ってくるなど、私などは足下にも及ばない気配りの人でした。 またアウトリーチ活動に力を入れていた草の根研究者で、私の今の職場のような研究機関で働いていることをいいというばかりか、羨ましいとまで言ってくれた数少ない知己だった。 彼の分も、そっちも頑張ろう。自分がやれることから、微力だけれども。 お悔やみ申し上げます。

Continue reading »


Libraries of Life

Written by bonohu in misc on 土 15 4月 2017.

米国のアウトリーチ活動に関して、2016年9月のICE2016に参加した時に紹介してもらった Library of Life Collection Card が断舎離していたら出てきた。 このサイトからもリンクのあるアプリ「Libraries of Life」をダウンロードして(ANDROID版もある)、やはりそのページからリンクされているSPECIMEN CARDSのPDFもダウンロードして、紙に印刷するか、パソコンの画面で表示するかして、さきほどのアプリからカメラを起動してそれをかざすと…。 標本(Specimen)が3Dで見ることができるんですよね、これ凄い!ぜひ、日本でもこういういいものは真似してアウトリーチ活動に取り入れるべきかと。

Continue reading »


SPARQLthon55 day2

Written by bonohu in misc on 金 14 4月 2017.

AWSに移設したAOE2の更新ができるように、いろいろと準備してもらいつつ。昨日やったことのまとめ。 AWSにsshできるように/Users/hoge/.ssh/configに以下の設定を追記。

host fuga
 user ec2-user
 hostname xxx.xxx.xxx.xxx
 identityfile /Users/hoge/.ssh/fuga.pem

そして [shell] ssh -i /User/hoge/.ssh/fuga.pem fuga [/shell] とすると入れるようになった。

Continue reading »


SPARQLthon55 day1

Written by bonohu in misc on 木 13 4月 2017.

AOE2いよいよ公開へ。セキュリティ強化と停電のないサーバーでのサービスを、ということでAWS化を急遽。達人たちに教えてもらい、AWSでセットアップしてもらう。いろいろと設定を教えてもらい、そしてついに初のAWSへのssh。 それと並行してAOE2用のデータファイル作成スクリプトをまとめてArrayExpressをミラーしてきているサーバーで環境を構築。うまく動いたようで、引き続き微調整。DNS切り替えなどは明日以降に。 近隣のバイオインフォマティクス始めました、な人にSPARQLthonの雰囲気みてもらうべく、招き入れたり。もっと色んな人が出入りできるアツマリにしていきたいね、今後とも。

Continue reading »


EnsemblでもTrack Hubs

Written by bonohu in misc on 水 12 4月 2017.

これまで試したことなかったが、EnsemblでもTrack Hubsが使えるらしい。 追加する際に見に行く先の Track Hub registry はかつてのDAS registryのように各ゲノムブラウザー(といってもUCSC Genome BrowserとEnsembl Genome Browserの2つだけだが)共通の模様。最近はヒトやマウスだとUCSCを使いことが多く、気が付かなかった。Ensemblご無沙汰といってもヒトやマウス以外の非モデル生物ではよく使っているのだが。

Continue reading »


国の機関サイトの5年残存率

Written by bonohu in misc on 火 11 4月 2017.

ショッキングな統計値を教えてもらった。国の機関サイトの残存率というもので、5年残存率は40% (2015年)というものである。つまり半分以上は5年経つと消えるということだ。 これは、国立国会図書館がインターネット資料収集保存事業として調べ続けているもので、他には保存した1万サイトの可視化というウェブ魚拓を取っているものもあってなかなかおもしろい。資料として、説明する際の拠り所として、役に立ちそう。

Continue reading »


Trinity実行時のFASTQヘッダ問題

Written by bonohu in misc on 月 10 4月 2017.

Trinityを実行する際にFASTQのヘッダが問題となる事例。以前から同様の事が起きており、その場合は、 [shell] bzcat file.fq.bz2 | awk '{if(NR%4==3) $0=sprintf("'"+${index}%d"'",(1+i++)); print;}' | awk '{if(NR%4==1) $0=sprintf("'"@${index}%d"'",(1+i++)); print;}' | bzip2 -c > file2.fq.bz2 [/shell] のようなコマンドでヘッダを書き換えしのいでいたが、これが今回効かず。

ちゃんとSRAからダウンロードしてきたFASTQファイルなのに、Trinityでエラーが出て先に進めないなんて、と思ってエラーメッセージを眺めていたら、

If your data come from SRA, be …

Continue reading »


諸行無常

Written by bonohu in misc on 日 09 4月 2017.

未来永劫続くプロジェクトやデータベースはないとはわかっていても、その継続を仮定してしまうのはなぜだろう。 調べ物をして知ったのだが、GDBというデータベースは、ヒトゲノム情報の集積場の「Genome Data Base」として作られていたのに、GDBは使われなくなり、なぜかカナダに行って、その後2008年には無くなっていたとか。 また、Ensemblは開始以来、European Bioinformatics InstituteとThe Wellcome Trust Sanger Instituteの共同プロジェクトだったのに、Sanger Instituteは2016年に共同をやめ、2017年の今は関わっていないとか。イギリスのEU離脱が関係しているのだろうか。 こういうふうに思うのは、日本人の国民性だろうか? 昨今の国際情勢からして、今後いろんなプロジェクトや重要なデータベースが続かなくなったときにどうすべきか、対策を考えていく必要があるだろうと思い巡らせたり。

Continue reading »


国立遺伝学研究所一般公開2017年

Written by bonohu in misc on 土 08 4月 2017.

DBCLSが三島の国立遺伝学研究所に移転した2014年から毎年の参加で、これで4回目。しかしながら、雨になったのは初めてと。 去年に引き続き、公開講演会の撮影補助。もちろん撮影にかかわる人的なコストはかかっているが、こういう形で所属ではないが普段お世話になっている宿主の研究所に貢献できるのはよいことだという認識。後に統合TVコンテンツの一つとなることだし。 それにしても今日の講演の最後でデバ(ハダカデバネズミ)の話が出てきたのはビックリした。そのネタで科研費の研究分担金も貰っている自分としては頑張って研究を進めねば、と襟を正した次第。頑張ります。

Continue reading »


遺伝研の論文 in Pubmed

Written by bonohu in misc on 金 07 4月 2017.

昨日のDBCLSの論文数の検索と同じことを遺伝研でやっていみると…。

https://www.ncbi.nlm.nih.gov/pubmed/?term=National+Institute+of+Genetics[ad]

遺伝研ほどヒット数が多いと、右上に年ごとのヒストグラムが出るようです。 I先生が書かれていたように、最近数年間でaffilicationの扱いが変わったのか、論文数が多くなっているように見える結果に。何れにせよ、この研究所はコンスタントに論文を出してきている研究力のあるところだというのは間違いないようです。

Continue reading »


DBCLS10年の論文数

Written by bonohu in misc on 木 06 4月 2017.

とあるtweetがきっかけで、所属としてDatabase Center for Life Science (DBCLS)が載っているPubmedエントリを抽出してみた。

https://www.ncbi.nlm.nih.gov/pubmed?term=Database+Center+for+Life+Science[ad]

というURLでリストされる。2017年4月6日現在43本あって、1本を除いてすべてOpen Accessという徹底ぶりは凄い。みなさん、さすが。E-utilsでの取得も同じように。

https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=pubmed&term=Database+Center+for+Life+Science[ad]

最初の20件しか入ってないけど…。全件取るには工夫が要りそう …

Continue reading »


転写因子のChIP-seqデータの可視化

Written by bonohu in misc on 水 05 4月 2017.

まずはChIP-Atlasで調べる。目的の転写因子があれば、ラッキー。 ない場合は、"転写因子の遺伝子名"+"ChIP-seq"をqueryとしてNCBI GEOで検索。ヒットしてきたエントリを見ていって、ChIP-seqのデータがあるものを探す。FASTQ形式の生データに加えて、peak call後の解析済みデータ(多くの場合、bed形式)があればラッキーで、macs2などによる再計算不要。それをダウンロードする。圧縮は解かなくてもいい。 その場合、どのバージョンのゲノムに対して計算されたものかを原著論文にあたって調べる。そのバージョンのゲノムをUCSC Genome Browserで選択し、Custom trackとしてそのbedファイルをアップしてみると、ChIP-seqのpeakがゲノムブラウザ上に出現するように。

Continue reading »


Overleaf

Written by bonohu in misc on 火 04 4月 2017.

ふとtwitterのタイムラインを見た時に「オンラインLaTeXエディター“Overleaf”:論文投稿プロセスを変革する共同ライティングツール」という日本語論文が情報管理に掲載されたとその筆者のつぶやきが目に止まった。 論文タイトル通りOverleafというツールの紹介で、一言でいうと研究者版Google Docsという触れ込みに興味津々。さっそくアカウントを作ろうとするとTwitterやORCIDなどでログインできるではないか!!というわけで、ORCIDでログインすることで、あっという間にアカウントが作成できてしまった。 現在、Academic journalのテンプレートを使って今度投稿したい雑誌のそれを落としてきて使おうとしているところ。情報科学系な同僚はすでに使っていたらしく、無料で使える容量は少ないが便利だとのこと。 LaTeXは博士論文を書いて以来使っていないが、またこの機会にこのOverleafで使ってみようと決意。次の論文からではあるが。

Continue reading »


Data Authorship as an Incentive to Data Sharing

Written by bonohu in misc on 月 03 4月 2017.

The New England Journal of Medicine に掲載された論文(sounding board)、"Data Authorship as an Incentive to Data Sharing" doi:10.1056/NEJMsb1616595。 Data Sharing に関わる Incentive として Data Authorshipを、というわかりやすい考え方が Figure 1. Credit for Data Sharing and Tracing the Data Set にまとめられている。 データを出した人をrespectしつつ、それを再利用し、科学の発展を加速する。データを再利用することを推進し、自らも実践している自分にとって、とてもsupportiveな内容で、自分たちのやっていることを後押ししてくれている論文。 このFigure1はきっと、今後の発表でも多用することになるに違いない …

Continue reading »


春の嵐

Written by bonohu in misc on 日 02 4月 2017.

三島も4年目に突入。年度頭から締め切りに追われているが、ブレインストーミングに温泉インフォマティクス研究会単独開催。火の付いた仕事を効率よく進めるための頭の整理になったかと。あとはひたすらinput!

天気も荒れ模様に向かうようで、まさに春の嵐。ともに荒れて欲しくないが…。

なべて世の 風を治めよ 神の春

Continue reading »


パスワード付きzipファイルを作る

Written by bonohu in misc on 土 01 4月 2017.

個人情報保護ということで、電子メールで添付ファイルを送付する際もパスワードを付けて、と言われる時代に。早速、必要になったので調べた。

例えば、hoge.jpgというイメージファイルを送る際には、まずzipファイル(hoge.zip)を作成して、zipcloakというコメンドでパスワードが必要な処理をすれば良いらしい。 [shell] zip hoge.zip hoge.jpg zipcloak hoge.zip [/shell] ググって上位に出てきたこのサイトを参考にした。

実は、zipコマンドの-eオプションを使えば1コマンドで済むらしい。 [shell] zip -e hoge.zip hoge.jpg [/shell] 上記のサイトを見て、さらにディレクトリ単位で、と思って検索してて見つけたこのサイトに書いてあることを参考にした。

パスワードを付けたzipファイルは、付ける前と同じファイル名なので、ちゃんとパスワードが付いているか、確認したほうが良いのはいうまでもないだろう。

また、ファイルが複数ある場合はディレクトリ(フォルダ)を作成してそこに置いてzipファイルにしてからzipcloakを実行すればよい。hogedというディレクトリ以下のファイルをzipで固めてパスワードを付ける例。 [shell …

Continue reading »


2017年第1四半期終了

Written by bonohu in misc on 金 31 3月 2017.

2017年も三ヶ月が終了した。その実感はやはりない。あっという間に終わってしまった感。 本務の共同研究に関わる打合せが多かった他、科研費の研究打合せやその他の用務で呼ばれていく出張が多かった。 結果として、出張による外泊数が18泊と海外出張がこの期間中一回もなかったにもかかわらず、1週間強の海外出張があった昨年(16泊)に比べて多い。このペースでは、今年も過去最多だった昨年より多くなり、記録更新しそうな悪寒。

そして、この2年半の間、同じ建物の別のフロアーで仕事されていたY先生が退職の挨拶に。理研時代に一緒のプロジェクトをやらせていただいたり、三島に来てからはとくにお世話になりました。これからも頑張ってと言われて、身の引き締まる思いというのはこういうことか、と思った次第。より使われるバイオリソースを目指して全力で取り組んでいきます。

Continue reading »


深くゆっくり考えよう

Written by bonohu in misc on 木 30 3月 2017.

twitterのRT(ReTweet)で流れてきたとあるつぶやきにハッとする。

日中の仕事の大半が事務仕事を含む細々したルーチンワークになる場合、頭の働き方が仕事を短時間でさばくモードになってしまう。このモードになると、物事を深くゆっくり考えられなくなる

自分の場合、そこまでルーチンワークではない(と自分は思っている)ものの、短時間でさっさとさばいてしまい、物事をゆっくり深く考えていない自分に心当たり。深くゆっくり考えられるよう、自分を仕向けねば。

Continue reading »


第61回日本応用動物昆虫学会大会3日目

Written by bonohu in misc on 水 29 3月 2017.

最終日。この日も朝からガッツリ口頭発表を聞く。その間に昨晩の仮説の検証を試みるも…。不審感だけが残る。 この日は自分の研究も含んだ発表もあり、どういった反応が来るか楽しみだったが、それほど深く突っ込んだものではなくて少々肩すかし。来年度も話させてもらえるようなネタをこの一年かけて作ってこようと思った次第。

意外にここ(ぼうのブログ)を見ている人がいることに勇気づけられる(ただし、n=1)。単なるやったことメモ+雑文なんだが。

ちょうど、昨日見学したばかりの東京農工大学科学博物館で学んだ遠藤先生のニュースがその日に流れていたり。

[「ガードナー賞に東京農工大の遠藤章氏 『スタチン』発見」](http://www.asahi.com/articles/ASK3X7D8TK3XULBJ01F.html)

ノーベル賞とれますかね?

Continue reading »


第61回日本応用動物昆虫学会大会2日目

Written by bonohu in misc on 火 28 3月 2017.

2日目は朝から夕方まで口頭発表。主に生理学・生化学方面を聞く。 お昼を挟んで、ポスター発表。その合間に何回か共同研究打合せ。 そして、日が暮れてからは、同業種交流会。そういった会ならではのオフラインな情報を仕入れることが出来て、大変満足。帰ったら早速我が仮説の検証をしてみたい。

Continue reading »


第61回日本応用動物昆虫学会大会1日目

Written by bonohu in misc on 月 27 3月 2017.

アウェーの学会大会参加。のはずが、会場に着くなり知り合いに会うなど。 そこでの議論で、来年度の講習会をどうやっていくか、そのやり方に関して考えさせられた。ぶっちゃけ、すでに統合TVにコンテンツも多く蓄積しているので、それを見てもらえばそれでいいわけで。face-to-faceのハンズオンでしか出来ないことをやるべきだろうな、理想的には。 午後はシンポジウム。まだまだ、生物システムを我々は知り尽くしてない。決めつけはキケン、ということを学び取ったつもり。 懇親会にもかなり多くの人が参加していて驚かされる。そこで、pre-twitter時代にブログで交流の会った方に再会(リアルには初顔合わせ)。本当、この業界、狭いわ。

Continue reading »


日本生物工学会誌連載4回目「塩基配列データベースの現状とその有効活用方法」掲載

Written by bonohu in misc on 日 26 3月 2017.

日本生物工学会誌「バイオインフォマティクスを使い尽くす秘訣教えます!」という連載を開始してからはや半年。とはいえ、2ヶ月に1回のペースだから、まだ3回しか公開されていないのだが。これまでの内容は以下の通り。

  1. 「ウェブ上に散在する情報を生命科学研究にどう役立てるか」

  2. 「AllieとColilの使い方―PubMed/MEDLINEから効率よく情報を抽出する日本発のサービス―」

  3. 「DBCLSが提供する日本語コンテンツ」

2,3回目とDBCLSが提供するサービスの紹介が続いたが、4回目の今回は、塩基配列データベースに関する話題。DBCLSの塩基配列関連ツール紹介はすでに日本語の総説も多数あるので、今回はDNA Data Bank of Japan (DDBJ)中村保一さんと共著で、「塩基配列データベースの現状とその有効活用方法」と題して塩基配列データベースへのデータ登録とその利用の両側面から塩基配列データベースを紹介させてもらった。30年もの歴史のある塩基配列データベースなので、本当はいろいろと書きたいことあったのだが、敢えて短くまとめた。詳しくはウェブ上のリソースで調べてもらうことを願って。

シリーズとしてはあと3回あるので、そちらも乞うご期待。

Continue reading »


説明会、その後

Written by bonohu in misc on 金 24 3月 2017.

説明会。この種のそれは約十年勤めてきて初めて。わかったことは、現状今後のことはよくわからないということ。 終了後、雰囲気が悪くなる。実は、自分は楽観的なんだな、と感じたり。 もちろん、やるべきことは頑張ってやっていくつもりだが、それ以外にもっと戦略的にしないといけないことがあるような気がした。

あしたは どっちだ

Continue reading »