バイオインフォマティクスでゲノムワイド関連解析(GWAS)

バイオインフォマティクスを頑張っている方が、本ブログの内容を真似することで、自分のデータで解析ができる情報を提供することが目標です! 今はGATKの解説をメインテーマにしています。

MENU

今後のGATK解析で使用するWGSデータの収集 -GATK解説シリーズ-part 2

sra-toolkit, fasterq-dump, sra-toolkit

導入難易度★☆☆☆☆
使用難易度★★☆☆☆

今回は何をする?
今後のGATK解析で使用するマラリア原虫のWGSデータを収集します。せっかくなので、以前prefetchとは違うfasterq-dumpを使ったダウンロードの方法を紹介します。今後は、今回収集したデータを使って、GWASで使用する変異データの取得までを順番に紹介してきます。

私の使用感
以前の記事では、prefetchfastq-dumppigzを使って、sra形式fastq形式fastq.gz形式の順番でダウンロードしました。今回はfastq-dumpの後継ツールであるfasterq-dumpを使って、直接fastq形式でダウンロードします。また、fasterq-dumpではmulti-threadで処理できる点が優れています。ちなみに、以前まで使用していたWGSデータは、類似性が高すぎて使いづらかったため今後の解析には使用しない予定です。


Twitterで記事の更新をお知らせしているので、興味を持たれた方は是非フォローをお願いします。

1. 必要なツールをインストールする。

sra-toolkitおよびpigzを使用するので、必要であれば以前の記事を参照にインストールする。

eupatho-bioinfomatics.hatenablog.com

eupatho-bioinfomatics.hatenablog.com

2. Accession numberを羅列したテキストファイルを作成する。

2019年のScienceの論文で、アフリカのマラリア原虫の集団構造を2263株のWGSデータを使用して解析した大規模な研究のデータを一部拝借する。データの内訳は後日に必要なタイミングで説明するが、15カ国から2株ずつを選んだ。
まず、Accession numberを羅列したテキストファイルを用意する。

science.sciencemag.org

cat >SRA_list.txt <<EOF
ERS032647
ERS032649
ERS347567
ERS347575
ERS199640
ERS199645
SRS399547
SRS378808
ERR015425
ERR015377
ERR063600
ERR211448
ERR484676
ERR343116
ERR562868
ERR580552
ERR450079
ERR450058
ERR405240
ERR405245
ERR1035536
ERR1045266
ERR636426
ERR636430
ERR701750
ERR701756
ERR1106528
ERR1106529
ERR2000569
EOF

4. 解析を実行する。

fasterq-dumpを実行する。fastq形式は非常に容量が大きくストレージを圧迫するため、pigzを使ってすぐにgz圧縮する。 なお、fasterq-dumpではpair-endとsingle-endを自動で認識するため、fastq-dumpで使用した--split-fileは使用しなくてよい。

while read line; do
   fasterq-dump $line --outdir ./fastq --threads 16 --progress
   pigz --processes 16 SRA/${line}_1.fastq
   pigz --processes 16 SRA/${line}_2.fastq
done < SRA_list.txt

オプションについて
--outdir 出力ディレクトリ
--threads スレッド数 (デフォルト=6)
--progress 進捗状況の表示
--processes スレッド数 (デフォルト=8)

処理が正しく完了すると、
ERRXXXXXX_1.fastq.gz
ERRXXXXXX_2.fastq.gz
というファイルが得られる。

今回はこれで終わりです。
よければ他の記事のも見ていってください。
なお、本記事の執筆にあたりSRA Toolkitのfasta-dumpを高速化した fasterq-dumpを参考させていただきました。