prefetchの使い方

複数のSRAファイルをprefetchを使って一括ダウンロードする方法を紹介します。

個々のSRAファイルは、accession numberを検索してブラウザから一つずつダウンロードすることも可能ですが、多数のデータを用いる場合に非効率的です。そこで、sra-toolkitsに含まれるprefetchを使って、リストに記載したAccession numberのSRAファイルを連続的に取得します。

Twitterで記事の更新をお知らせしているので、興味を持たれた方は是非フォローをお願いします。フォローする @harrykun_blog

1. sra-toolkitをインストールしていない場合はインストールする。

#作業するdirectoryに移動
$ cd /path/to/working_dir/ 
$ conda install -c bioconda sra-tools

2. インストールできたことを確認する。

$ prefetch --help

Usage:
  prefetch [options] <SRA accession | kart file> [...]
  Download SRA or dbGaP files and their dependencies
・
・
・
prefetch : 2.8.0

が表示されればOK。

3. ダウンロードしたいデータのIDリストを作成する。

論文からAccesion number(ERS767390)を拾ってきてgoogle検索する。
今回はENA (European Nucleotide Archive)のデータを利用する。論文に記載されているERSで始まるIDは参照できないため、ERSから検索可能なERRに変換する必要がある。

f:id:Harry-kun:20210613120302p:plain — EXTERNAL Links の下にあるENAをクリックする。

ERS767390のページ下部にあるStudy Accesion ERP00190をクリックする。
下部にあるDownload report: TSVをクリックしてタブ区切りファイルを取得する。

参考_Craig W. Duffy et al., 2017, Moleluar Ecology

今回は適当に一部のファイルを選択し、ERRXXXXXXのリストをテキストファイルに作成する。

$ cat > ID_list.txt << "EOF"
ERR1081237
ERR1081238
ERR1081239
ERR1081241
ERR1081242
ERR1081254
ERR1099214
ERR1081255
ERR1081257
ERR1099215
ERR1081261
ERR1081262
ERR1081263
ERR1081264
ERR1081265
ERR1081283
ERR1081284
ERR1081285
ERR1081287
ERR1106549
EOF

参考_シェルスクリプトでテキストを改行する方法