The Biology of Genomes 2019 day5
meeting最終日。
来た日には、5日間もあって長いなあと思っていたが、実際にはあっという間だった。
全体的な雑感としては、順調に女性参加者の割合が増えていたのに、今回で急に下がったらしいが、何があったのだろうか。
久しぶりに参加した私からすると、米国からの参加者の割合が高くなった気がしてならなかった。
そして、かつてより「テクノロジー」の演題が減って、「データ解析」のそれが増えた。
このことはやはり米国参加者が増えているのと関係がある気がする。
それと、やはりヒトが対象の研究が多い。
Biobankのデータを使った研究が特に口頭発表で多く見られた。
他の生物もあるが、基本産業的に重要な穀物や家畜だけのイメージ。
帰りは偏西風に逆行するので、約13時間のフライトと長かった。
「スパイダーマン:スパイダーバース」
を見たら別のを見たくなって、
「アリー、スター誕生」、
「レプリカズ」、
「アクアマン」
と、結果として4種類の映画を見ることができた。
Continue reading »
The Biology of Genomes 2019 day4
「なんとかseq」はまだまだ増殖中、というのを再確認。
というか、手法の命名方法として多用されていて、それは塩基配列解読がカップルしているからに他ならない。
Continue reading »
The Biology of Genomes 2019 day3
Population Genomicsのセッションを聴いていて、ゲノムデータを使った研究の広がり、を感じた。
その使った研究がもっと増えていかねば。
もちろん、オイラが使われているのを知らないだけかもしれんが。
解析手法開発のためのエコシステムが必要だと痛感。
ただ、解析手法を作ることを目的に開発するだけではそれは難しく、何かgrand(grantかも) aimは別にあって、それを達成するためのナニカでないと今後続けていけないのでは?
この先生きのこれない、ってやつ。
Continue reading »
The Biology of Genomes 2019 day2
ポスター発表は会期中の2,3,4日目に、毎日日替わりで、発表者のLast Name、アルファベット順。
ということで、Bから始まる私は初日に。
2日目だとバッチリ日周期(circadian rhythm)が残ってて、ポスター発表の午後の時間帯は超絶眠く。
なんとか立ってはいられたものの、積極的に話すのは辛い状態。
それにしても、
- ほとんどがopt inにtweetableな口頭発表がほとんど
- bioRxivに論文としてすでにアップロードしてある
ことがとても印象的だ。
Continue reading »
The Biology of Genomes 2019 day1
2019/5/7-11まで Cold Spring Harbor Laboratory (CSHL) で開かれている The Biology of Genomes に参加。
ミーティングの名前を変えながらも、この時期に毎年行われているヒトゲノム解読プロジェクト当時からある。
実は、22年前にこのミーティングに出て発表したのが自分の海外学会発表デビューであった。
そもそも当時はJFKについたら怪しいタクシーに乗らないと移動手段がなかったような…。
時代とともに色々変わっていて、最近では事前に要旨集がPDFで送られてくるようになったし、ソーシャルメディアの使用もキッチリとガイドラインがあって推奨されている。
それをiPadでも見れるようにと、iCloud共有してみたが、PDFファイルを開いただけじゃテキスト検索できない。
開いた画面の右上の上向き矢印アイコンで出てくるメニュー「"ブック”で開く」を選んでブックを起動するとテキスト検索が出来るように。
iBooksはブックになっていたようだ、いつの間にか。浦島太郎状態だな…
CSHLに来るのは、2017年秋のGenome Informatics以来1.5年ぶりだが、このGenomeのミーティングにくるのはおそらく理研にいた時以来、17年ぶりぐらいではなかろうか。
今回もガッツリ勉強してきたい。
Continue reading »
ゲノム解析者用Docker設定
Docker Desktop for macのおかげで、macOSでもDockerを使ってツールを起動することが簡単になった。
インストールの際にライブラリの依存性に悩まされることもなく、またバージョンの違いによる差異も決まったバージョンで動かせば解消されるはずである。
何よりも(あまりないのだが)macOSで動かないツールを動かすことができるのが魅力である。
ただ、最初に実行するときのイメージがかなり大きく、ネットワーク的に恵まれてないと厳しい上に、実行するためにはnativeに動かすよりも多くのメモリが必要となる。
ゲノム系のツールはもともとメモリをたくさん必要とするものが多く、その辺がさらにネックとなっているのではないかと。
デフォルトで2GiBのメモリがDockerに割り当てられて動いているが、これではすぐに足りなくなるであろう。
足りなくなるとエラーもなく、急に実行が止まってしまうので、何が原因なのか、わかりにくい。
yyoshiakiもikraのページで書いているが、salmon
を実行するにもデフォルトの2GiBではメモリが足りなかったようだ。
今後多くの人がハマりそうなポイントなので、ここでも再度書いておく。
Dockerが起動しているときに上に出ているDockerのアイコンメニューからPreferences...
を選択する。

そして、開く設定画面からAdvanced
の項目を選択すると以下のような画面が出てくる。

この画面では、2GiBになっているメモリの割り当てを増やして、12GiBに設定したことになっている。
ただ、つまみを動かしたままではダメで、下部のApply & Restart
ボタンを押してDockerを再起動する。
これで前はコケていたDockerのプロセスが動くようになることが多いのではないだろうか。
Continue reading »
脱稿2019
年頭から書いてきたとある書き物を脱稿した。
でカウントした文字数の合計は、212,364
となった。
今回はその進捗を#某進捗ハッシュタグで記録してきた。
そのデータを使って、TIBCO Spotfireで可視化してみた。
その前処理は以下の通り。
| #!/bin/bash
grep ^190 shinchoku.txt \
| awk '{ print "20"$1"\t"$2 }' \
| perl -pe 's/現在、文字数合計//' \
> shinchoku2.txt
|
twitterで表示したデータはshinchoku.txt
とし、Spotfireで読み込むタブ区切りテキストファイルがshinchoku2 …
Continue reading »
チルダ
電子メールなどの文書には出てこないがUNIXコマンドラインで出てくる文字として、~
がある。
読み方は、「にょろ」ではなく、「チルダ(tilde)」である。
かつてはウェブサイトなどでこの~
を含むURLも多かったので、その存在を知っている方も多いかもしれない(ちなみにうちの職場の個人サイトはこの~
を含むURLとなっている)。
この~
であるが、UNIXコマンドラインでは、これはホームディレクトリという意味がある。
個人のホームディレクトリはアカウントごとにその絶対パスは異なるわけであるが、それをスルーして画一的に記述する際に便利な文字だからだ。
例えば、カレントディレクトリ以下のファイルをすべてホームディレクトリ以下のDocumentsディレクトリにコピーする場合は以下のコマンドだ。
| #!/bin/bash
cp * ~/Documents/
|
これも一字一句間違えないように打たないと動作しない。
間違いがちなのは、チルダのあとの/
を忘れたりすることである。
しかしながら、これは知らなくても多分なんとかなる文字かなと思う。
ホームディレクトリを指定する方法は~
を使わなくても何通りでもできるし。
そんな風に何通りにも同じ動作が記述できるのがUNIXのいいところである。
Continue reading »
バッククオート
クオート(quote)にはシングル('
)とタブル("
)があるのはよく知られているだろう。
実は、さらに第3のクオートが存在する。
それがバッククオート(`)である。
UNIXコマンドラインにおいては、あるコマンドの結果を別のコマンドの入力として使う際に使われる。
電子メールなどの入力ではおそらく使わないだろうけれども。
| #!/bin/bash
echo "今日は `date +%m月%d日` です"
|
この例ではdate
コマンドの出力を受けて、echo
コマンドで処理(表示)している。
あと、クオートで問題になるのが、PDFに出力されたコマンド等を貼り付ける際などに起こる。
それは、シングルクオートが飾り文字に変換されているために、そのままターミナルに貼り付けても見た目はシングルクオートにそっくりでも別の文字で、シングルクオートとして認識されないということである。
そのようなどこからのコピー&ペーストの際にはそういった文字が含まれていないか、気をつけた方がよいだろう。
Continue reading »
バックスラッシュを打つ設定
新学期でUNIXコマンドを使い始めた方も多いだろう。
その際によく受ける質問で最近気になっているのは、アルファベットや数字ではない記号がどこにあるのか、というものだ。
特に\
(バックスラッシュ)はどこにあるのか、ということは定番中の定番だ。
使っているキーボードの種類にもよるが、最近のアップルの日本語キーボードだと、それは円記号¥
のキーで打つことができる。
あまり使わないためにデフォルトの設定では打てないようになっている。
それを打つためには、以下のように設定変更する。
「システム環境設定」→「キーボード」で「入力ソース」タブの下の方、「"¥"キーで入力する文字」を「円記号」から「バックスラッシュ」に変更

かつては円記号が表示されていてもバックスラッシュとして解釈してくれるようになっていたが、最近の「ターミナル」ではそれらを区別してしまうようなので注意が必要である。
Continue reading »
過去のブログコンテンツの統合
休日ともなると余裕ができる。
一年前からの懸案である、WordPressで作りためたコンテンツの統合。
再開当時はWordPressのXMLからmarkdownへの移行ツールが見つけられなかったが、今ならどうかなと再度チャレンジ。
xml2markdown wordpress
でググって、exitwpというWordPressのXMLをjekyllのmarkdownに変更してくれるツールを見つけた(こちらで使うのはPython謹製のpelicanなのだが)。
ただ、Python2で書かれたツールで、PyYAMLをpip2 install
する必要があったが、ちゃんとWordPressのXMLをmarkdownに変換してくれた!
コンテンツのカテゴリーなど、互換性のない部分もあったが、その辺はコマンドラインで以下のような感じでよしなに処理。
| #!/bin/sh
for f in 20*; do
grep -v ^"- 雑感" $f > tmp/$f
done
|
してからmv tmp/* .
して。
また、amazonへのサムネール付きのリンクも、HTMLを手動で追加 …
Continue reading »
2019年4月を振り返って
4月は絶望より始まった。
やるべきことをやるしかないという思いで「引きこもって進めた」結果、出張は比較的少なく、宿泊回数3泊。
そして、AOEの外堀を埋めて完成版とした。
次のステップをより再現性よく、またどこでも計算できるように進めるべく、meetupに出てCWL化への意識を高めたつもり。
共同研究に関しても、何回か来てもらうことで議論し、結果として色々進んだ。
今月発表した論文のように、粛々と形にしていこう。
また、母国語での執筆活動に関しても山は越えた感。
こちらも目標の出版期日を目指して、順調に進めていきたい。
Continue reading »
Workflow Meetup@東京日本橋
同僚に教えられ、15th Workflow Meetupに初参加。
東京会場は、COREDO日本橋にある理化学研究所 東京連絡事務所(15階)だったのだが、そこも初という、初めてづくし。
しかしながら、Workflow言語であるCommon Workflow Languageの話は2018年末の松江のBioHackathon2018で教えてもらって興味を持って取り組みつつある技術ということで、そこまでお初でもなく。
牛はらみ肉をランチにいただくなど、腹を割ったさまざまな情報交換のほか、個人的な作業としては、Pitagora Workflows in CWLにあるRNA-seqのワークフローを使いこなすべく、先人たちの業績を紐解いて自分の環境で動かせられるか、に取り組んだ。
会場ではkallisto index
を動かそうとして、一つバグを発見して、最終的には動かす(手元にあったtranscriptome reference配列のkallisto indexを作成する)ことができた。
次の日にkallisto quant
も無事動いて、新しいMac miniでconda install kallisto
することなく …
Continue reading »
エンジニアのための生命科学データ勉強会@静岡#2
昨年、生命科学ガチ初心でもできる!エンジニアのための生命科学データ解析の勉強会 Shizuoka.ngs#1が2018年6月30日(土)に静岡駅前で行われた。
自分は、「エンジニアのための生命科学入門」と題して小一時間話させていただいた。
実はちょうどその頃、個人的には生命科学データ解析を支える情報技術(以下、IT4BDA)を執筆している最中で、どういった反応がくるかを楽しみにしていたというのは今だから言えること。
懇親会最後まで残った何人かの人と色々と話をさせていただいたことは本を書く糧となったことは言うまでもない。
そして、今年も前回と同じ静岡駅前で2019/06/22(土)に、「エンジニアのための生命科学入門」と題して今回も最初にお話させていただきます。
RNAの発現量を配列カウント数から推定するRNA-seqデータ解析は、生命科学初心者にも取っ付きやすいのではないかということで、IT4BDAにも遺伝子発現データ解析の実際として第2章に取り上げられており、それをハンズオンとしてみんなでやる予定になっています。
生命科学データ解析に触れてみたいエンジニアの皆さん、是非ご参加下さい。 申込みはconnpassのShizuoka.ngs#2のページから。
Continue reading »
DEGノムコウ
発現差のあった遺伝子群のことをDifferentially Expressed Genes(DEG)と呼ぶのは、Allie的にもぶっちぎりのトップとなっている今日この頃。
そして、詳細ページを見ると2004年から文献中に登場して、年々この略語の出現数が増えてきていることが(描画までにちょっと時間かかるものの)ヒストグラムからわかる。
DEGノムコウに出口(デグチ)を探す。
日常的にそんなこともやっているわけだが、イソフルランを投与した/してない細胞での発現のようにDEGがほとんどないケースもあれば、その逆もある。
いずれの場合も通りいっぺんのやり方ではなく、生物学的な知識に基づいたデータ解析が必要となる。
そこのプロセスの欠如がいろんなところで問題となっているのではなかろうか?
それにしても、相手が知らないことを知り得るのは、生命科学データ解析本作家的にはまたとない素晴らしい機会である。
実際のデータ解析のゲンバに居るからこそ、可能となることである。
まだしばらくはこちらで頑張りたい。
DEGのむこうには もう次の論文が待っている…
Continue reading »
研究人生の中間地点
大学院を出て働き出した2000年から今年2019年で、19年。
そして、65才まで働くとして(これは怪しいが)、あと19年。
今年は、そのちょうど中間地点の年。
その年から初めた遺伝子発現のデータベースを未だに、しかもメインテーマでやっているのだから不思議なものだ。
変に老成することなく、もっともっと攻めていかなければ。
Continue reading »
Jupyter本のサンプルコードのおかげで解決
諸事情あって、可視化をPythonでやろうとして、Jupyter notebookでグラフなどを出そうとしていた週末。
平日にはやらないような写経とかを楽しみながらも、どうやっても本にあるようなグラフがJupyter notebookで出なくて。
まずは、Jupyterのインストールがおかしいんじゃないかと、conda
でいれてあったのを全て消してpip
経由のインストールに替えたり。
matplotlib
周りのおまじないのせいかと思って色々と試してみたが、それでも解決せず。
やっぱりグラフがインラインで表示されなくて、なんでだろうと色々もがいた挙句に。
公開していただいていたJupyter本のサンプルコードをみて気がついた。
そう、自分のコードはJupyter notebookのコードセルに1行ごとに実行していて、このサンプルコードにあるようにカタマリでコードセルに突っ込んでない、ということを。
それで全てが解決してうまく動くようになった。
ありがとう、Jupyter本のサンプルコードウェブサイト!
Continue reading »
AOEの外堀
SRAにRNA-seqとして登録されているものの、NCBI Gene Expression Omnibus(GEO)やEBI ArrayExpress(AE)といったいわゆる遺伝子発現データベースに登録されていないデータを抽出してAOEに突っ込んだ。
DDBJ Genomic Expression Archive(GEA)は先月末の作業で取り込まれるようにしたが、今回さらに懸案だったのを対処した形。
お堀に例えるなら、AEとGEA分が内堀、GEOで中堀ときて、SRAにあるRNA-Seqデータを取り込んで、外堀を埋めた感じである
全く僅かな数ではなく、Seriesカウントで約一万ちょいある。
これらのデータは一体なんなのか。
実はdbGaPやEGAに入っているエントリでメタデータだけあるだけなののか、それとも…。
個別のエントリをガッツリみていかないとわからないが、取りこぼしはこれでないい言うレベルまできた感。
裁きの日は近い。
Continue reading »
あれから4年
前職で採用面接から立会い、プログラミングもできる分子生物学研究者(彼はスイッチヒッターと言っていた)として一緒に研究してきた彼が亡くなってから今日で丸4年。
今日4月3日は彼の命日。
それ以前は、癌学会学術集会では夜一緒に行動していたから、学会の夜をどう過ごすかが課題に。
それも新しい知り合いのおかげで、徐々に立ち直ってきた感じ。
今年は話に呼んでいただいて、早々に参加することが決まったし。
今年も年頭にまた三島で知り合った同志を癌でなくしてしまった。
お互い分かり合えたよい飲み友達だったんだけど。。
その都度、生きるとはどういうことか、考えさせられる。
彼にも教えてもらったように、命ある限り、楽しんで生きていく。
でも、楽しみ方は人それぞれ。
価値観の押し付けはやめてね。
Til we die I'll be loving you dear
Continue reading »
2019年3月を振り返って
月初めからつくばまで行って農研機構 生物機能利用研究推進会議で登壇するなど、1月と2月の合計6泊よりも多い宿泊回数7泊の3月だった。
さらに、月初の阪大医学部Python会の2人の春合宿や、月末のSPARQLthon78など、三島に人が来る機会も多くかなり忙しい月であった。
参加させていただいたAMED-GA4GH GEM Japan ワークショップ 2019 仙台など、人と協調して動く仕事はそれなりに進んだ。
しかしながら、その分自分自身がメインで進めるべき公共DBを使いこなした研究が比較的低調だったのが反省材料。
特に原著論文の執筆。
来月2019年4月は、年度も変わるし、引きこもって進めたい。
Continue reading »
日本応用動物昆虫学会大会2019@つくば
2019年3月25日〜27日まで、第63回日本応用動物昆虫学会大会がつくばで開かれ、25と26日に参加。
昨年は小集会の講師として参加し、今年はサテライト的な講習会の講師。
学会員でもないのに、結果として3年連続の参加となった。
今年は特にRNA-seq解析をやっている演題が目についた気がした。
そればかりか、それ関係のお問い合わせを廊下でお会いした知り合いから受けるなど。
RNA-seqデータ解析を日常的にやっているが故の色眼鏡なのか、それとも本当にそうなのか。
遺伝子発現定量の技術として自分が日常的に関わっている手法が、昆虫学においても応用されていることは非常に喜ばしいことだ。
自身の研究にうまく活用されんことを願ってやまない。
Continue reading »
2019年応用動物昆虫学会大会連動企画 データ解析講習会
2019年3月25日〜27日まで、第63回日本応用動物昆虫学会大会がつくばで開かれる。
それに連動して、その前日の2019年3月24日にデータ解析講習会を柏の葉キャンパス駅前のDBCLS柏にてやろうということで会員の方に企画していただき、自分は講師を務めた。
2018年8月に行ったROIS-DS-JOINTの研究会「昆虫のゲノムデータベースとそれを活用したデータ解析 II」と連続して行った、AJACSa5柏をベースに内容を考えたが、結果として全く同じとは言えないほど変わってしまった。
いつものAJACSシリーズと同じGitHubに使ったテキストはアップしてあるので、参考まで。
シェルスクリプトの説明とかもっと饒舌気味に説明すべきだった、など色々と反省点はあるが、ちょっとは参考になったのであれば幸い。
あとちょっと、ちょっとの辛抱だ(意味深)。
Continue reading »
カイコの実験単
Amazonでは2019年3月22日発売予定のカイコの実験単。
この本の企画編集委員をされていた共同研究者よりご恵投いただく。
ありがとうございました。
この本の副題には「生物の授業やクラブ活動で使える実験集」とあり、難しい漢字にはふりがながふられていたり、中高校生向けに配慮されたやさしく書かれた内容である。
共同研究としてカイコの遺伝子配列解析には長年携わってきてはいるものの、生物としてのカイコに対してはまだまだ不勉強で、興味深く読み始めたところ。
p122の実験13「データベースを利用したカイコのもつ遺伝子の相同性検索と分子系統樹の作成」は普段自分自身が書くような内容で、そういった内容が本に収録されていることがとても興味深い。
コンピューターを使ったDRYな実験であり、カイコを飼わなくてもインターネットに繋がったコンピューターがあればすぐにできる。
また、発展的課題として統合TVが紹介されていて、大変嬉しく思った。
オールカラーで写真がふんだんに入っていてこの値段なのだから私などからすると大変お買い得な本ではないかと。
Continue reading »
みんなのPython勉強会#43
前回、参加できなかったみんなのPython勉強会。
ここのところスケジュールの都合がつかず、2018年の秋からの新しい会場になってから長い間参加できなかった。
今回は、スケジュールが合ったので、久しぶりに参加。
新しい会場もだが、内容的にもPyLadiesとのコラボmeet upということで、フレッシュな話を聞くことができた。
プレゼン術にしても、対象としている内容についても、自分の凝り固まったそれとは違うものであり、新鮮だった。
まーやさんのお話「PyLadies Tokyo About Us 〜ふんわりコミュニティ論〜」で、PyLadies Okinawaの立ち上げの話を聞いた。
そこで、バイオインフォマティクスなご当地の知り合いに聞いてみたところ、なんとオーガナイザーだとか。
ギョウカイの狭さを勉強会に来てまで思い知るなど。
また、LightningTalkで自ら「生命科学データ解析を支える情報技術」を紹介してきた。
研究会のウェブサイトからもリンクしておいたが、ここにもそのプレゼンを貼っておく。
stapyがきっかけになって出版されることになった本、ということで。
そういった本が他のいろんな分野で続けばいいなと期待。
Continue reading »
阪大医Python会春合宿@三島
阪大医Python会の優秀なる2人の医学部生が、春合宿と称して職場に来襲。
3/4-8までの5日間滞在。
その間、共同研究者も彼らの来襲に合わせて来訪して、その打ち合わせもあったり、DDBJミーティングなど、いくつかイベントがあったのだが。
RNA-seqデータ解析合宿、ということでリファレンスゲノムありのデータ解析も、なしのデータ解析も両方とも一通りやってもらった。
その様子は、かつての統合牧場を彷彿するありさまで、GitHubにログを残していってくれた。
かつて統合牧場では、はてなダイアリーにみんなログを残してくれていたのを思い出してたいへん懐かしかった。

統合牧場の彼らがそうであったように、知識に貪欲で(美味い飯にも)、いろんなことに興味を持ってくれて、我々の方が却って活性化された感。
幅優先探索気味なのは、若さがゆえかな。
ものすごく最先端のことをよく知っている一方で、意外な知識が抜けてて驚くことも多数。
でも今なら、「Bono本のxxページに載っているよ」と返答できるのはいい時代になったな、と実感。
今後もこういう形式のインターンは学生さんの長期休暇を利用して受け入れられるといいな。
旅費などの金銭的な援助もなんらかの形で考えねばならないのが今後の課題。
Continue reading »
女子高生乱子によるベイズ統計学入門講座: とある弁当屋の統計技師(データサイエンティスト) 3
かつて職場に大学院生RA(Research Assistant)が多数来てくれるきっかけとなった「Rによるテキストマイニング入門」を著された石田基広先生より「女子高生乱子によるベイズ統計学入門講座: とある弁当屋の統計技師(データサイエンティスト) 3 」をご恵投いただく。
ベントウさんシリーズ3作目。
もちろん今回も共立出版から、なのだが、もっと堅い出版社というイメージを払拭するかのような表紙で。
実際には表紙だけでなく、挿絵にも同じイラストレーターによる絵が内容とキッチリ連動しており、素晴らしい。
前作も前々作も楽しく読ませていただいたが、今回も非常に明快に実例でベイズ統計学入門が説かれていた。
Excel方眼紙に関して例示があり、どういう形でデータを入力すべきかが書かれていて、今後のリファレンスとしたい。
端々にtwitterで話題となっている昨今の大学事情が織り交ぜられており、大変楽しい。
それだけでなく、最近の学問的な流行りなども会話口調で登場人物によって語られており、個人的には知識の整理に有用だった。
次回作、期待してます!
(生命科学データ解析とかw)
Continue reading »
農研機構 生物機能利用研究推進会議
農研機構の生物機能利用研究部門の会議に特別講演に呼ばれたので、つくばまで遠征。
「公共データベースを利用した知の巡りのより生命科学研究」と題して40分話させていただいた。
DBCLS/NBDCでやってきた通算13年の活動に関して、農研機構での活用を意識した形で紹介させていただいた。
私の話のあとには、農業情報研究センターのセンター長がお話しされた。
先駆的なearly adaptorは利用しているが、まだまだこれからというフェーズ。
使うのが当たり前という状態になるよう、これからも働きかけていきたい。
Continue reading »
Mishima.syk#13
8ヶ月ぶりに開催されたMishima.sykは今回13回目。
もうすぐ、三島に来て丸5年ということは、この勉強会も約6年やっているということになる。
今回は、知り合いの研究者が関東から遠征してきて研究紹介をしてくれたり、ハンズオンも密度が濃かったということもあって、あっという間に昼の部が終わってしまった感じであった。
自分は、昨日のエントリでも書いたが、勉強会当日(2019年2月9日)に「生命科学データ解析を支える情報技術」(以下、IT4BDA)が発売開始。
図ったかのようだが、実に偶然の一致。
そういうご縁もあって、「エンジニアのための生命科学入門本ができるまで」と題したLightning Talkとして、紹介させていただいた。
IT4BDAを書いた
が新しい情報として上記リンクから公開してあるGitPitchによるプレゼンにも書かれているので、参考まで。
夜の部は、いつも通り素晴らしくオーガナイズされてて、いろんなネタでお話しができて盛り上がったように思う。
ただ今回は、比較的新規参加者が多かったと思うのだが、あまりお話しできなかったのが残念。
Continue reading »
Plan Sとは
論文を出すことを日常的にしている研究者にとって非常に関わりが深いことなのに、ほとんど知られてないので、ここで取り上げる。
下手な解説を私がするよりも、以下のブログエントリに明快にまとめられているので、そちらを。
解説記事「Plan S:原則と運用」を書きました
ただ、J-STAGEの方は「paywallの中(購読料を払わないと読めない)」。オープンアクセスに関することを書いた総説がオープンアクセスでないという皮肉な状況。
しかしながら、九州大学附属図書館のレポジトリに著者自らが登録されているため、全文読める。本当、ありがとうございます。ありがたくこうやって拡散させていただきます。
図書館情報学系の集まりに顔を出さなかったら、私も知らなかったとは思うものの。
今後イヤでも聞くことになるはずなので、早めに知っておいて損はないかと。
Continue reading »
HISAT2→Samtoolsなワークフロー
以前書いたブログエントリなどを現状に合わせて見直して再掲載シリーズ。
HISAT2でreference genomeにmappingして、genomeに対するアラインメントを得る場合。
HISAT2のウェブサイトにすでにindexずみのそれがある場合はしなくていいが、まずはindex作成。
hisat2-build
コマンドにて。
reference genome sequenceがhogenome.fa
、作成するindexの名前をhoge
とすると、
# HISAT2を使うためのindex作成
% hisat2-build -p 12 hogenome.fa hoge
これはコア数が12あるMacProで動かした例(以下全て同じ)で、そこは環境に合わせて。
そして、実際のmapping。
# HISAT2の実行
% hisat2 -p 12 -x hoge -1 fuga_1.fastq.gz -2 fuga_2.fastq.gz -S fuga.sam …
Continue reading »