Biocondaを使ってみた

(このエントリは、Mishima.syk #10のライトニングトークのネタです)

Biocondaとは、

Bioconda is a channel for the conda package manager specializing in bioinformatics software.

とのことで、Bioinformaticsソフトウェアに特化したconda package mangerのチャンネル(bioconda.github.io)。Pythonで書かれたツールだけかと思ってスルーしていたのだが、実際はPythonに限らず、なんでもあるところがこれまでしてきた大きな誤解であった。

conda必須なので、入ってなければ、まずMinicondaを入れる。macOSの場合64bitしかないから楽だが。しかしながら、ここでもpythonのバージョン問題再発。2か3か、それが問題だ。とりあえず3で。ダウンロードして落ちてくるのはシェルスクリプトなので、普通に実行。

sh ~/Downloads/Miniconda3-latest-MacOSX-x86_64.sh

ライセンスに同意して、すぐにインストール完了。そして、anacondaで入れるプログラムが優先的に実行できるよう、PATHを通す。.bash_profileのテンプレート作ってくれるので、それを活用。condaと打ってcommand not foundでない反応が返ってきたらインストール成功。

conda config --add channels defaults

conda config --add channels conda-forge

conda config --add channels bioconda

とこの順番に写経。最後にbiocondaの行を入れるのがポイントの模様。

例えば、RNA-seqデータ解析ソフトウェアのSTARRSEMとかは、Homebrewになくて、これまでパッケージマネージャーを介さないで手動でインストールしないといけないと思いcondaこんでいたが。 conda install starconda install rsem で入る。超絶便利。なんで今まで知らなかったのだろう。これまでRSEMは普通にインストールして使って来たが、これだと全てのスクリプトがPATHの通ったdirectoryにコピーされないため、発現差解析でちょっとめんどくさい。しかし、このbiocondaを使った手法だとPATHの通ったdirectoryにバッチリインストールされるので、このようにPATHを指定する必要がない、など便利に使える。

とくに、macOSに限らず、Linux版もあるのは、マルチプラットフォームで作業する人間には同じ操作でできて大変ありがたい(といってもmacOSとLinuxだけだが)。

Biocondaを再発見した本当のきっかけは、並列版fastq-dumpを探していて。それも conda install parallel-fastq-dump で入る。 time parallel-fastq-dump --sra-id DRR045547 -t 8 -O fq てな具合で。だが、並列版fastq-dumpは同僚がbash版を作っているので、そっちを利用いただきたく。

その同僚からさらに聞いた話では、Biocondaに入れるとdocker containerに変換してくれるらしい

we succeeded in creating an very efficient Linux container for every* Bioconda package.

ということで。docker推しな我々は、ますますBiocondaな流れになりそう。さらにhomebrewから(bio)condaへ!

おまけ: 温泉インフォマティクス研究会のお誘い


Written by bonohu in misc on 土 08 7月 2017.