今後のGATK解析で使用するWGSデータの収集 -GATK解説シリーズ-part 2
sra-toolkit, fasterq-dump, sra-toolkit
導入難易度★☆☆☆☆
使用難易度★★☆☆☆
今回は何をする?
今後のGATK解析で使用するマラリア原虫のWGSデータを収集します。せっかくなので、以前のprefetchとは違うfasterq-dumpを使ったダウンロードの方法を紹介します。今後は、今回収集したデータを使って、GWASで使用する変異データの取得までを順番に紹介してきます。
私の使用感
以前の記事では、prefetch→fastq-dump→pigzを使って、sra形式→fastq形式→fastq.gz形式の順番でダウンロードしました。今回はfastq-dumpの後継ツールであるfasterq-dumpを使って、直接fastq形式でダウンロードします。また、fasterq-dumpではmulti-threadで処理できる点が優れています。ちなみに、以前まで使用していたWGSデータは、類似性が高すぎて使いづらかったため今後の解析には使用しない予定です。
Twitterで記事の更新をお知らせしているので、興味を持たれた方は是非フォローをお願いします。
フォローする @harrykun_blog
1. 必要なツールをインストールする。
sra-toolkitおよびpigzを使用するので、必要であれば以前の記事を参照にインストールする。
eupatho-bioinfomatics.hatenablog.com
eupatho-bioinfomatics.hatenablog.com
2. Accession numberを羅列したテキストファイルを作成する。
2019年のScienceの論文で、アフリカのマラリア原虫の集団構造を2263株のWGSデータを使用して解析した大規模な研究のデータを一部拝借する。データの内訳は後日に必要なタイミングで説明するが、15カ国から2株ずつを選んだ。
まず、Accession numberを羅列したテキストファイルを用意する。
cat >SRA_list.txt <<EOF ERS032647 ERS032649 ERS347567 ERS347575 ERS199640 ERS199645 SRS399547 SRS378808 ERR015425 ERR015377 ERR063600 ERR211448 ERR484676 ERR343116 ERR562868 ERR580552 ERR450079 ERR450058 ERR405240 ERR405245 ERR1035536 ERR1045266 ERR636426 ERR636430 ERR701750 ERR701756 ERR1106528 ERR1106529 ERR2000569 EOF
4. 解析を実行する。
fasterq-dumpを実行する。fastq形式は非常に容量が大きくストレージを圧迫するため、pigzを使ってすぐにgz圧縮する。 なお、fasterq-dumpではpair-endとsingle-endを自動で認識するため、fastq-dumpで使用した--split-fileは使用しなくてよい。
while read line; do fasterq-dump $line --outdir ./fastq --threads 16 --progress pigz --processes 16 SRA/${line}_1.fastq pigz --processes 16 SRA/${line}_2.fastq done < SRA_list.txt
オプションについて
--outdir 出力ディレクトリ
--threads スレッド数 (デフォルト=6)
--progress 進捗状況の表示
--processes スレッド数 (デフォルト=8)
処理が正しく完了すると、
ERRXXXXXX_1.fastq.gz
ERRXXXXXX_2.fastq.gz
というファイルが得られる。
今回はこれで終わりです。
よければ他の記事のも見ていってください。
なお、本記事の執筆にあたりSRA Toolkitのfasta-dumpを高速化した fasterq-dumpを参考させていただきました。