bamの切った貼った
Written by bonohu in misc on 月 08 12月 2014.
Reference genome配列に対するmappingの結果ファイル、bam。そこから特定の染色体などの場所を絞り込んだデータだけを作成する場合に以下のsamtoolsのオプションが大変有効です。 複数のbamファイル(1.bam 2.bam 3 …
Reference genome配列に対するmappingの結果ファイル、bam。そこから特定の染色体などの場所を絞り込んだデータだけを作成する場合に以下のsamtoolsのオプションが大変有効です。 複数のbamファイル(1.bam 2.bam 3 …
今シーズン初めの雪が積もりだした岩手医科大学矢巾キャンパスにて講習会。師走の忙しい時期ということもあっ …
「種を超えて保存された生理代謝機構の解明に向けて:データベースによるアプローチ」と題して、第37回日本分子生物学会年会にてフォーラムという枠をいただいた。そもそもワーク …
amazonにも目訴本のエントリが。Ensembl, Jalview, InterPro, GEO/ArrayExpressの項のほか、第1部の「ウェットな研究にデータベースやウェブツールを役立てるための秘訣」とい …
宮城県松島で開催されたBiohackathon2014に参加してきました。目標にあげた、複数のマシンに分かれてやっているAOEのデータ更新の仕組みの統合化とgithubでの公開は達成しました。そして、データ更新も開発者がいる …
自家製BLAST用DBから必要な配列エントリ取得の続き。 配列セットを作成したいときは2,3本でなく、数十本から数百本といったことが多いようです。
[shell] blastdbcmd -db oreno.aa -entry …
2014年11月10日〜14日までの丸一週間、宮城県は松島海岸のホテルでBioHackathon2014に参加中。ハッシュタグは #biohack14 。個人的には、現在複数のマシンに分かれてやってい …
シークエンスのクオリティチェックによく使われるのがfastQC。その詳しい説明はこちらに譲る。SRAにアーカイブされているデータに関してはあらかじめ計算したものがDBCLS SRAから利用可能だ …
次回に引き続き、今回も発表させていただく。ただ前回のようにいつもの話じゃなくて、新ネタ披露の場としてみなさ …
割と欠かさず参加してきたJapan Spotfire User Group Meeting(JASPUGM)。今回は久しぶりに話す機会を頂きました。内容的には普段から各地で話し …
処理したい生データ(CEL.gzのファイル)だけを実行するdirectoryに集めて、justRMAを実行するのであるが、これらはとくにgzip圧縮を解凍する必要はなく、圧縮されたままでも実行されるようである。同じ生 …
GEOは遺伝子発現データのアーカイブで、再利用できるデータの宝庫である。だがしかし、多くのユーザがデータをdepositしてきているためファイル名などに一貫性がなく、コンピュータでの一括処理に困ること …
9/5に表題の講習会の講師を務めてきました。普段、日本各所で行っている統合データベースの普及利用促進のための1-2日開催の統合データベース講習会AJACSとは異なり、NGSの速習コース(とはいえ、2週間がっつり)ということで気合の入 …
あるホストから別のホストまでのネットワーク経路をリスト表示するコマンドtracerouteの今風版のmtrなのだが、homebrewで [shell] brew install mtr [/shell] で簡単にインスト …
論文reviseの際などには、某論文のコピペの可能性を示唆したあのツールがもちろん役に立つ。しかしながら、以下の様な行番号が付い …
Bowtieなどで単にゲノムマッピングした結果(sam/bam形式)を各位置ごとに数値で表現してみたいというときに。マシンパワーと出力されるデータ量の制限で10塩基刻みでwigに変換するには [shell] samtools mpileup …
BLASTでヒットがあったエントリの配列データを切り出してきたい時はままあるかと。公共データベースのエントリならtogowsのRESTで取得するなり、ググるなりNCBIで検索するなりで配列データにありつけるかと思います。ところが、自分で作成したDBに対してBLASTした場合にはそうもいかないことがあるわけで。その場合どうする …
某所の講習会でファイルの共有を(バックアップで)やっておく必要が出てきたので、新しいレポジトリを作成する必 …
バイオインフォマティクス人材育成カリキュラム(次世代シークエンサ)速習コースの講師で「配列解析基礎」を担当。そ …
IGV(Integrative Genomics Viewer)をいじってみた。まずは、統合TVの基本編の方を見て。ダウンロードするときに所属機関の記入が必須の模様。'IGV …
他の方々の使い方を垣間見れて参考になった。公共データベースを利用して、という使い方はそれほどメジャーではなかったものの、そういう要望も出て …
DBCLS SRA Metadata Search の結果をJSONで取ってくるのを教えてもらったので、備忘録的に。
まずは出力されるJSONを処理するコマンドとして、jqをインストールしておく。
[shell] brew install -v jq [/shell]
で。SRAデータの中で、Study typeが'Transcriptome'、キーワード …
[http://www.pythonware.com/products/pil/](http://www.pythonware.com/products/pil/)
から入手できるとのことで、 Python Imaging Library 1.1.7 Source Kit (all platforms) (November 15, 2009) をダウンロード。5年近くアップデートされていないようで、libjpegもfreetypeもすでに入れていたのだが [shell] python setup.py …
「実践コンピュータビジョン」(原著: Programming Computer Vision with Python)を本屋で手にとってみてから購入。次の展開にむけた体力づくりのため …
前のエントリのSeleniumとPhantomJSを使ってブラウザを起動しないでスクリーンショットを撮るスクリプトの汎用化をpythonの勉強がてら。
[shell] python scsho.py "http://sra.dbcls.jp/" [/shell]
以下のスクリプトをscsho.pyとして、コマンドライン引数としてURLを入れることでそのページのスクリーンショットがscshoXXXXX.pngというファイル名で保存されるようにした。XXXXXはそのスクリプトを実行した時のpid(プロセスID)。
[python] import …
ウェブブラウザのスクリーンショットは画面の大きさしか撮れないのだが(当たり前)、ポスター発表の際に縦長のそ …
昨日7月18日(金)に、東京有楽町東京国際フォーラムにて。今回のテーマは「創薬研究初期におけるデータの活用」。ライフサイエ …
研究者としての情報は、大学院時代から研究室で自ら立てたウェブサーバで発信してきました。ソフト的には、最初は …
Mishima.sykというライフサイエンス業界な勉強会に参加してきました。その名の通り、2014年4月からの職場である三島近辺のその業界の勇士^H^H有志たちの勉強会です。職場が引っ越す前に開かれた、前回の第2回目に参加させてもらって本業との意外な接点を認識し(もちろん、以前から知ってはいたものの…)、積極的に …
7/3-4と遺伝研のリトリートに参加させて頂いて参りました。遺伝研からバスで40分ほどの御殿場高原時之栖にあるホテルがリトリートの会場。リトリートとは、「仕事や家庭生活等の日常生活から離れ、自分だけの時間や人間関係に浸る …
6月26-27日の二日間にわたって、今年度も遺伝研研究会をオーガナイズしました。正式名称は国立遺伝学研究所2014年度研究会「塩基配列データアーカイブをフ …
かつては塩基配列を解読したらそれをINSDC(International Nucleotide Sequence Database Collection; DDBJ/EMBL(ENA)/GenBankのこと)に登録してから論文を投稿するという流れで研究が …
統合牧場の郊外への移転が始まりました。一ヶ月のモラトリアム期間を経て、2014年4月からは静岡県三島市にある国立遺伝学研究所にその場を移します。
統合牧場の歴史は、統合TVを作成して頂く近隣の大学院生RA(Research Assistant)さんや …
ランチョンwrap-up。特別、前に出て報告はしなかったものの、*Author'sサービスから他のサービスへの導線づくりは複数の手段で進められていくことに。乞うご期待!
昨日のツケ。筋肉痛でボロボロだったが、*Author's centralプロジェクトの実装を開始。実例を作らせていただいた。HIF-1αにマウスイン(hover)、クリックすると…。DBCLSの別のサービス(RefExやAllie)へのリンクが …
いいだランニングクラブに参加。宿舎から会場までの往復5km/30min。さらに会場までバスに乗らずにウォーキング、2.5km/30min …
WordPressのプラグイン調査引き続き。とりあえずは、登録されている単語にマウスインでアノテーションを出し、リンクを張る手段を見出した。 コンテン …
沖縄県名護市の万国津梁館で開催中のBH13.13(国内版バイオハッカソン)に参加中。TeamWP(WordPress!)に属してDBCLSの各看板コンテンツ間のリンクを更に強化することを画策中。
Macintoshが発売されてから30年。自分とMacintoshは…と考えると、分子生物学の研究室に配属された1994年から、なのでちょうど20年。研究室にあって便利な文房具として …
一対一対応のデータなら対応付けは簡単。しかし、実際の研究活動においてはそんなことばかりでなく、特定のIDに対応づくデータが複数あり、それ …
タブ区切りテキストのカラム切り出しはUNIXコマンドラインでは、これまでも紹介したように [shell] cut -f2 arraytable.txt > column2.txt [/shell] みたいな感じで、arraytable.txtファイルの左から2番目のカラムだけを切り出して、column2.txtファイルに書き込むみたいなことを日常茶飯事的に実行する …
サイト投稿によってコンテンツの増えた「ぼうのブログ」の見てくれ変更。ブログの右カラムにInstagramで直近にアップした画像が出るようにして、冗長になっていた「ア …
今年も職場の同僚たちに明日に控えた誕生日を祝ってもらえた。それぞれ忙しい中それを忘れずに覚えていてくれ …
まだまだ、我々のやっていること、広まっていない。個別に、じみじみと広めていかねば。 友人の学問に対する前向きな姿勢、本当敬服。息切れ …
年末の出張の事務書類を出すところからスタート。その後、大ボスに呼び出されるなど。某仕様書、急ぎます。遅れていて …
昨年2013年は、以前より進めてきた
次世代シーケンサからのデータアーカイブSequence Read Archive(SRA)を使い倒すための仕組みDBCLS SRAの論文
何エントリか前に紹介した遺伝子対応表を作る際に、一般的には双方向ベストヒットということをよくやります。こ …
前回の配列セットを取得するはTogoWSを使うものでした。TogoWSは汎用で前回例で示した塩基配列データベース以外のデータベースにも使えるので便利なのですが、取得が1エントリづつで遅いという欠点がありました。
塩基配列に限っては、DDBJのgetentryを使うという方法が数万のエントリ取得において劇的に早いことが関係者の方の手助けを得て分かりました。 前回紹介したAK377185-AK388575の連番エントリを一気に取るには、以下のコマンド(curl)でいいよう …
cDNA配列のセット(多くの場合数万のオーダーの配列群)が論文発表されたのに、それがウェブサイト上にないとかいう話をよく聞き …
本日(2013年7月25日)、PLOS ONEから論文を発表しました。お世辞にもいい機能アノテーションがなされているとは言えない「非モデル」生物種カイコにお …