BAMからCRAMへのバッチ変換
Written by bonohu in misc on 金 28 4月 2017.
ファイル変換weekになってしまったので、BAMからCRAMへのバッチスクリプトも紹介しておく。 SAMBAM変換とは異なり、リファレンスゲノム配列が必要で、それは各環境で違う場所にあると思うので、それは自分の環 …
ファイル変換weekになってしまったので、BAMからCRAMへのバッチスクリプトも紹介しておく。 SAMBAM変換とは異なり、リファレンスゲノム配列が必要で、それは各環境で違う場所にあると思うので、それは自分の環 …
SAMからBAMに変換して、そのまま中間ファイルを作らずにBAMをソートする。それをバッチで処理するには。 SAMファイルの置いてあるディレクトリに移動(cd)してから、以下のようなスクリプトを実行 …
現在お世話になっている研究所でOxford Nanopore Technologies のセミナーがあり、参加させていただいた。 大変興味深く聞かせてもらった …
ぼうのブログによると、2009年の7月29日に初めてDBCLSに来てくれた当時M1の学生さんだった。その後、Research Assistantとして統合牧場でUNIXとしてのMacの使い方を身につけ、そして学んだことをブログや統合TVとしてまとめてくれた。その後、そのままDBCLSに残ってくれて、後輩RAの指導、とき …
ついにこの日がやってきた。各所に働きかけた末に。
That's one small step for (a) man, one giant leap for mankind.
ただの盛り上がったミーティングに …
配列データ解析、頑張らないと。それを後押しする事象発生。折しもそれ関連の計算を始めていたのは、虫が知らせたか …
昨日のエントリの続きで、複数のBAMファイルをCRAMに変換し、そのサイズを比べてみた。
それぞれのファイルサイズを同一行に来るように1行ごとにデータを作って(cram …
BAMからCRAMへの変換を試してみた。samtoolsを使えば良いだけの模様。 [shell] samtools view -@ 4 -T hogenome.fa -C -o hoge.cram hoge.bam [/shell] 3,091,833,154byteあったファイルサイズが、2,325,565,061byteに。約75%になったとは、すごい!CPU時間的には
263.48s user 45.58s system …
dottupの説明を書くため、EMBOSSのチュートリアルを見ていたら、XL23808というアクセッション番号の配列が使われていた。チュートリアルに出ている配列だし、自分もこれで例を作ろうと、これが何かをDDBJ/ENA/GenBankで検索しても、ググって …
直接は被っていないものの、それでも学生委員会の同窓会で最近も何回か会った、同学年の同志の訃報。そんな私にも …
米国のアウトリーチ活動に関して、2016年9月のICE2016に参加した時に紹介してもらった Library of Life Collection Card が断舎離していたら出てきた …
AWSに移設したAOE2の更新ができるように、いろいろと準備してもらいつつ。昨日やったことのまとめ。 AWSにsshできるように/Users/hoge/.ssh/configに以下の設定を追記。
host fuga
user ec2-user
hostname xxx.xxx.xxx.xxx
identityfile /Users/hoge/.ssh/fuga.pem
そして [shell …
AOE2いよいよ公開へ。セキュリティ強化と停電のないサーバーでのサービスを、ということでAWS化を急遽。達人たちに教えてもらい、AWSでセットアップしてもらう。いろいろと …
これまで試したことなかったが、EnsemblでもTrack Hubsが使えるらしい。 追加する際に見に行く先の Track Hub registry はかつてのDAS registryのように各ゲノムブラウザー(といってもUCSC Genome BrowserとEnsembl Genome …
ショッキングな統計値を教えてもらった。国の機関サイトの残存率というもので、5年残存率は40% (2015年)というものである。つまり半分 …
Trinityを実行する際にFASTQのヘッダが問題となる事例。以前から同様の事が起きており、その場合は、 [shell] bzcat file.fq.bz2 | awk '{if(NR%4==3) $0=sprintf("'"+${index}%d"'",(1+i++)); print;}' | awk '{if(NR%4==1) $0=sprintf("'"@${index}%d"'",(1+i++)); print;}' | bzip2 …
未来永劫続くプロジェクトやデータベースはないとはわかっていても、その継続を仮定してしまうのはなぜだろう …
DBCLSが三島の国立遺伝学研究所に移転した2014年から毎年の参加で、これで4回目。しかしながら、雨になったのは初めてと。 去年に引き続き、公開講演会の撮影補助。もちろん撮影にかかわる …
昨日のDBCLSの論文数の検索と同じことを遺伝研でやっていみると…。
https://www.ncbi.nlm.nih.gov/pubmed/?term=National+Institute+of+Genetics[ad]
遺伝研ほどヒット数が多いと、右上に …
とあるtweetがきっかけで、所属としてDatabase Center for Life Science (DBCLS)が載っているPubmedエントリを抽出してみた。
https://www.ncbi.nlm.nih.gov/pubmed?term=Database+Center+for+Life+Science[ad]
というURLでリストされる。2017年4月6日現在43本あって、1本を除いてすべてOpen Accessという徹底ぶりは凄い。みなさん、さすが …
まずはChIP-Atlasで調べる。目的の転写因子があれば、ラッキー。 ない場合は、"転写因子の遺伝子名"+"ChIP-seq"をqueryとしてNCBI GEOで検索。ヒットしてきたエン …
ふとtwitterのタイムラインを見た時に「オンラインLaTeXエディター“Overleaf”:論文投稿プロセスを変革する共同ライティングツール」という日本語論文が情報管理に掲載 …
The New England Journal of Medicine に掲載された論文(sounding board)、"Data Authorship as an Incentive to Data Sharing" doi:10.1056/NEJMsb1616595。 Data Sharing に関わる Incentive として Data Authorshipを、というわかりやすい考 …
三島も4年目に突入。年度頭から締め切りに追われているが、ブレインストーミングに温泉インフォマティクス研究会単独開催 …
個人情報保護ということで、電子メールで添付ファイルを送付する際もパスワードを付けて、と言われる時代に。早速 …
2017年も三ヶ月が終了した。その実感はやはりない。あっという間に終わってしまった感。 本務の共同研究に関わる打合せが多かった他、科研費 …
twitterのRT(ReTweet)で流れてきたとあるつぶやきにハッとする。
日中の仕事の大半が事務仕事を含む細々したルーチンワークになる場合、頭の働き方が仕事を短時 …
最終日。この日も朝からガッツリ口頭発表を聞く。その間に昨晩の仮説の検証を試みるも…。不審感だけが残る。 この日は …
2日目は朝から夕方まで口頭発表。主に生理学・生化学方面を聞く。 お昼を挟んで、ポスター発表。その合間に何回か共同研究打合せ。 そして、日が暮れて …
アウェーの学会大会参加。のはずが、会場に着くなり知り合いに会うなど。 そこでの議論で、来年度の講習会をどうやっ …
日本生物工学会誌に「バイオインフォマティクスを使い尽くす秘訣教えます!」という連載を開始してからはや半年。と …
説明会。この種のそれは約十年勤めてきて初めて。わかったことは、現状今後のことはよくわからないということ。 終了 …
有給休暇扱いにして、ホームワーク。所属はしていないが勤務先のある研究所で開催される公開セミナーを聞きに職 …
ある日、タブ区切りのデータを人に見せる必要があって、csvlookを使おうとしたら
zsh: /usr/local/bin/csvlook: bad interpreter: /usr/local/opt/python3/bin/python3.5: no such file or directory
というエラー …
JST産学共創プラットフォーム共同研究推進プログラム(OPERA)研究領域 「ゲノム編集による革新的な有用細胞・生物作成技術の創出」キックオフ・シンポジウムに呼んでいた …
米国のKansas State Universityからお越しいただいた Prof. Michael R. Kanost と Dr. Neal T. Dittmer のセミナーを聴講しに東京農工大学へ。_Manduca sexta_のゲノム配列解読の話も聞けた。やはり遺伝子アノテーションの話と …
三島開催。だが、急用で1日目だけの参加。 引き続き、ArrayExpressにない、RNA-seqデータを回収する件。ArrayExpressのデータと同じようにTitle行をどう取得するか、悩みどころ。いろいろな不具合が見つかってバグ出しには貢献したものの、解 …
ブログを始めたのっていつからだろう?と考え込むぐらい日常的にブログを書いたり、他人のそれを読んだりな自分 …
黙祷。もう6年、つまり小学校を卒業するだけの年数が経ってしまったと考えると、本当に時が経つのは早いという印象 …
26年前の今日(1991/3/10)、大学の合格発表だった。その時から画一的な評価基準を離れ、好き勝手にやってきたわけだが。曲がりなりに …
来週の講演に向けて、外行きの靴を買いに。まったくないわけではないが、良い機会なので。「足元を見られる」という話を …
多数のプロジェクトをかかえ、それぞれにさまざまな進捗状況になるのは当たり前。それをうまく並列に御して業績 …
お世話になっている研究所内部の共同研究プロジェクト打合せ。今回、痛感したのは、
公共DBに関する正確な知識のアップデートの重要性
研究者間でのデータ共有 …
2017年3月2-3日は、広島大学原爆放射線医科学研究所の放射線災害・医科学研究拠点の共同研究打合せに広島大学霞キャンパスへ …
本当に今年2017年の2月はそんな感じだった。1月のうちは、それほど予定も詰まっておらずじっくり研究に取り組めると思っていたのだが…蓋を開けてみると …
現在所属しているセンターが属している大学共同利用機関法人 情報・システム研究機構(ROIS: Research Organization of Information and Systems)が毎年主 …
今回の東京連続出張の機会に複数の知り合いと再会。人との出会いの中から自分のアイデンティティを再確認。ちょ …
昨日でデータは取ってこれるようになったので、それを整形して必要なデータだけ抽出できるように。
まずは、BioProject(PRJから始まるID)と …
前回に引き続き、DBCLS SRAのAPIをいじる。AOE2.0に必要なデータを作成するパイプラインを作成するために。 前回上手くいかなかったREST APIによる大量データ取得を再度試みる。BioProjectのデータでGEO SeriesのIDを持つエントリとSRA中のRNA-seqエントリのメタ情報の取得ができるようになった。ポイントは1000件ごとのデータ取得。 ただ、取ってきた結果は改行を含んでいな …
予定されていた会議がなくなったため、科学技術・学術政策研究所(NISTEP)講演会「欧州のオープンサイエンス政策-その狙 …