リファレンスゲノムのダウンロード、インデックスファイルの作成、SRAからfastqおよびfastq.gzへの変換する。

BWA index, fastq-dump, pigzの使い方。

マッピングに必要な準備としてリファレンスゲノムのダウンロード、インデックスファイルの作成、SRA形式からfastq形式への変換およびfastq.gzへの圧縮の３つの工程を行う。
今回使う主なコマンドはBWA index, fastq-dump, pigzの３種類。

Twitterで記事の更新をお知らせしているので、興味を持たれた方は是非フォローをお願いします。フォローする @harrykun_blog

0. 作業するディレクトリへ移動する。
前回の続きなので、フォルダの中身はlsコマンドで表示される３つのファイルになる。

$ cd /path/to/working_dir/
$ ls
ID_list.txt   ERS_list.txt   fasta

1. 必要なツールをインストールする。

#マッピングツールであるbwaのインストール
$ conda install -c bioconda bwa
#マッピングツールであるbwaのインストール
$ conda install -c bioconda pigz

念のため、インストールができたことを確認する。

$ bwa

2020 Apple MacBook Pro Apple M1 Chip (13インチPro, 8GB RAM, 256GB SSD) - スペースグレイ

Apple(アップル)

Amazon

Program: bwa (alignment via Burrows-Wheeler transformation)
Version: 0.7.17-r1188
Contact: Heng Li <lh3@sanger.ac.uk>

Usage:   bwa <command> [options]

・
・
・
Note: To use BWA, you need to first index the genome with `bwa index'.
      There are three alignment algorithms in BWA: `mem', `bwasw', and
      `aln/samse/sampe'. If you are not sure which to use, try `bwa mem'
      first. Please `man ./bwa.1' for the manual.

が表示される。

2. マッピングに使うリファレンスゲノムをPlasmoDBからダウンロードする。
f:id:Harry-kun:20210613121444p:plain PlasmoDBのサイトでPlasmodium facriparum3D7の既製のファイルをダウンロードする。 Data→Download data files→Current release→Pfalciparum3D7/→fasta→data/ →PlasmoDB-52_Pfalciparum3D7_Genome.fastaをクリックしてダウンロードし、workingdir/3D7_genomesに保存した。(23MB)

3. マッピングに必要となるインデックスファイルを作成する。

$ bwa index ./3D7_genomes/PlasmoDB-52_Pfalciparum3D7_Genome.fasta

成功すると、以下のようなファイルが生成される。

$ ls ./3D7_genomes
PlasmoDB-52_Pfalciparum3D7_Genome.fasta
PlasmoDB-52_Pfalciparum3D7_Genome.fasta.amb
PlasmoDB-52_Pfalciparum3D7_Genome.fasta.ann
PlasmoDB-52_Pfalciparum3D7_Genome.fasta.bwt
PlasmoDB-52_Pfalciparum3D7_Genome.fasta.pac
PlasmoDB-52_Pfalciparum3D7_Genome.fasta.sa

4. SRAファイルをFASTQ形式に変換する。
前回入手したSRAファイルをfastqファイルに変換する。ただし。fastqファイルは容量が大きいため、すぐにpigzコマンドを実行してFASTQ.gzに変換する。

mkdir fastq
while read line;
do
fastq-dump --split-files ./fasta/sra/$line.sra --outdir ./fastq
pigz ./fastq/$line*fastq ;
done < ID_list.txt

正常に終わるとfastqの中に以下のファイルが生成される。
sraファイルは削除してもOK。

ls fastq

ERR1081237_1.fastq.gz    ERR1081241_1.fastq.gz    ERR1081255_1.fastq.gz    ERR1081262_1.fastq.gz    ERR1081265_1.fastq.gz    ERR1081285_1.fastq.gz    ERR1099215_1.fastq.gz
ERR1081237_2.fastq.gz    ERR1081241_2.fastq.gz    ERR1081255_2.fastq.gz    ERR1081262_2.fastq.gz    ERR1081265_2.fastq.gz    ERR1081285_2.fastq.gz    ERR1099215_2.fastq.gz
ERR1081238_1.fastq.gz    ERR1081242_1.fastq.gz    ERR1081257_1.fastq.gz    ERR1081263_1.fastq.gz    ERR1081283_1.fastq.gz    ERR1081287_1.fastq.gz    ERR1106549_1.fastq.gz
ERR1081238_2.fastq.gz    ERR1081242_2.fastq.gz    ERR1081257_2.fastq.gz    ERR1081263_2.fastq.gz    ERR1081283_2.fastq.gz    ERR1081287_2.fastq.gz    ERR1106549_2.fastq.gz
ERR1081239_1.fastq.gz    ERR1081254_1.fastq.gz    ERR1081261_1.fastq.gz    ERR1081264_1.fastq.gz    ERR1081284_1.fastq.gz    ERR1099214_1.fastq.gz
ERR1081239_2.fastq.gz    ERR1081254_2.fastq.gz    ERR1081261_2.fastq.gz    ERR1081264_2.fastq.gz    ERR1081284_2.fastq.gz    ERR1099214_2.fastq.gz

今回はこれで終わりです。次回は、リファレンスゲノムへのマッピングを実施します。

eupatho-bioinfomatics.hatenablog.com