rsync hacks

必要な拡張子のファイルだけをrsync

AOEのindexを作成するためにArrayExpressのメタデータだけをダウンロードして使っていたのが始まりだったが、DDBJとの協力関係の下、ArrayExpressのファイル全体をmirrorしてきた

しかしながら、諸事情あってそれを止めることになったので、AOEの更新のために必要なメタデータだけ取得することに。 同梱されているbamファイル全体の容量が巨大となってきて、それの転送に時間がかかるし、何よりローカルに持っておくスペースが…。

そこで、qiitaの記事rsyncでサブディレクトリ含む特定パターンのファイルのみコピーするを参考にそれが可能かを模索してみた。 より具体的には、.sdrf.txt.idf.txtという拡張子をもつファイルだけを、rsync://anonymous@rsync.ebi.ac.uk/pub/databases/arrayexpress/data/experiment/以下から再帰的に探して取ってくることが以下のコマンドで出来た。

#!/bin/bash
rsync -avvrm --include="*/" --include="*.sdrf.txt" --include="*.idf.txt" --exclude="*" rsync://anonymous@rsync.ebi.ac.uk/pub/databases/arrayexpress/data/experiment/ /home/bono/arrayexpress/experiment/

Written by Hidemasa Bono in misc on 火 29 10月 2019.