バイオインフォマティクスでゲノムワイド関連解析(GWAS)

バイオインフォマティクスを頑張っている方が、本ブログの内容を真似することで、自分のデータで解析ができる情報を提供することが目標です! 今はGATKの解説をメインテーマにしています。

MENU

SRAファイルをまとめてダウンロード [prefetch]

prefetchの使い方

複数のSRAファイルをprefetchを使って一括ダウンロードする方法を紹介します。
 

個々のSRAファイルは、accession numberを検索してブラウザから一つずつダウンロードすることも可能ですが、多数のデータを用いる場合に非効率的です。 そこで、sra-toolkitsに含まれるprefetchを使って、リストに記載したAccession numberのSRAファイルを連続的に取得します。


Twitterで記事の更新をお知らせしているので、興味を持たれた方は是非フォローをお願いします。


1. sra-toolkitをインストールしていない場合はインストールする。

#作業するdirectoryに移動
$ cd /path/to/working_dir/ 
$ conda install -c bioconda sra-tools


2. インストールできたことを確認する。

$ prefetch --help
Usage:
  prefetch [options] <SRA accession | kart file> [...]
  Download SRA or dbGaP files and their dependencies
・
・
・
prefetch : 2.8.0

が表示されればOK。

3. ダウンロードしたいデータのIDリストを作成する。

論文からAccesion number(ERS767390)を拾ってきてgoogle検索する。
今回はENA (European Nucleotide Archive)のデータを利用する。 論文に記載されているERSで始まるIDは参照できないため、ERSから検索可能なERRに変換する必要がある。

f:id:Harry-kun:20210613120302p:plain
EXTERNAL Links の下にあるENAをクリックする。

ERS767390のページ下部にあるStudy Accesion ERP00190をクリックする。
下部にあるDownload report: TSVをクリックしてタブ区切りファイルを取得する。

参考_Craig W. Duffy et al., 2017, Moleluar Ecology

今回は適当に一部のファイルを選択し、ERRXXXXXXのリストをテキストファイルに作成する。

$ cat > ID_list.txt << "EOF"
ERR1081237
ERR1081238
ERR1081239
ERR1081241
ERR1081242
ERR1081254
ERR1099214
ERR1081255
ERR1081257
ERR1099215
ERR1081261
ERR1081262
ERR1081263
ERR1081264
ERR1081265
ERR1081283
ERR1081284
ERR1081285
ERR1081287
ERR1106549
EOF

参考_シェルスクリプトでテキストを改行する方法

$ mkdir fasta

prefetchの初期設定の保存場所は~/ncbi/public/sra/になっている。今回はworkingdirのfastaフォルダに変更した。変更は、SRA_Toolkit 使い方 データ保存フォルダの変更を参考に実施する。

4. prefetchコマンドを使って、指定したファイルを一括でダウンロードする

$ prefetch --option-file ID_list.txt

合計25GBほどのファイルが順次ダウンロードされる。

今回はこれで終わりです。 次回は、リファレンスゲノムへのマッピングの準備をします。

eupatho-bioinfomatics.hatenablog.com