rsync hacks
必要な拡張子のファイルだけをrsync
AOEのindexを作成するためにArrayExpressのメタデータだけをダウンロードして使っていたのが始まりだったが、DDBJとの協力関係の下、ArrayExpressのファイル全体をmirrorしてきた。
しかしながら、諸事情あってそれを止めることになったので、AOEの更新のために必要なメタデータだけ取得することに。 同梱されているbamファイル全体の容量が巨大となってきて、それの転送に時間がかかるし、何よりローカルに持っておくスペースが…。
そこで、qiitaの記事rsyncでサブディレクトリ含む特定パターンのファイルのみコピーするを参考にそれが可能かを模索してみた。
より具体的には、.sdrf.txt
と.idf.txt
という拡張子をもつファイルだけを、rsync://anonymous@rsync.ebi.ac.uk/pub/databases/arrayexpress/data/experiment/
以下から再帰的に探して取ってくることが以下のコマンドで出来た。
#!/bin/bash
rsync -avvrm --include="*/" --include="*.sdrf.txt" --include="*.idf.txt" --exclude="*" rsync://anonymous@rsync.ebi.ac.uk/pub/databases/arrayexpress/data/experiment/ /home/bono/arrayexpress/experiment/