SRAファイルをまとめてダウンロード [prefetch]
prefetchの使い方
複数のSRAファイルをprefetchを使って一括ダウンロードする方法を紹介します。
個々のSRAファイルは、accession numberを検索してブラウザから一つずつダウンロードすることも可能ですが、多数のデータを用いる場合に非効率的です。 そこで、sra-toolkitsに含まれるprefetchを使って、リストに記載したAccession numberのSRAファイルを連続的に取得します。
Twitterで記事の更新をお知らせしているので、興味を持たれた方は是非フォローをお願いします。
フォローする @harrykun_blog
1. sra-toolkitをインストールしていない場合はインストールする。
#作業するdirectoryに移動 $ cd /path/to/working_dir/ $ conda install -c bioconda sra-tools
2. インストールできたことを確認する。
$ prefetch --help
Usage: prefetch [options] <SRA accession | kart file> [...] Download SRA or dbGaP files and their dependencies ・ ・ ・ prefetch : 2.8.0
が表示されればOK。
3. ダウンロードしたいデータのIDリストを作成する。
論文からAccesion number(ERS767390)を拾ってきてgoogle検索する。
今回はENA (European Nucleotide Archive)のデータを利用する。
論文に記載されているERSで始まるIDは参照できないため、ERSから検索可能なERRに変換する必要がある。
ERS767390のページ下部にあるStudy Accesion ERP00190をクリックする。
下部にあるDownload report: TSVをクリックしてタブ区切りファイルを取得する。
参考_Craig W. Duffy et al., 2017, Moleluar Ecology
今回は適当に一部のファイルを選択し、ERRXXXXXXのリストをテキストファイルに作成する。
$ cat > ID_list.txt << "EOF" ERR1081237 ERR1081238 ERR1081239 ERR1081241 ERR1081242 ERR1081254 ERR1099214 ERR1081255 ERR1081257 ERR1099215 ERR1081261 ERR1081262 ERR1081263 ERR1081264 ERR1081265 ERR1081283 ERR1081284 ERR1081285 ERR1081287 ERR1106549 EOF
$ mkdir fasta
prefetchの初期設定の保存場所は~/ncbi/public/sra/になっている。今回はworkingdirのfastaフォルダに変更した。変更は、SRA_Toolkit 使い方 データ保存フォルダの変更を参考に実施する。
4. prefetchコマンドを使って、指定したファイルを一括でダウンロードする
$ prefetch --option-file ID_list.txt
合計25GBほどのファイルが順次ダウンロードされる。
今回はこれで終わりです。 次回は、リファレンスゲノムへのマッピングの準備をします。