マッピングの前準備
リファレンスゲノムのダウンロード、インデックスファイルの作成、SRAからfastqおよびfastq.gzへの変換する。
BWA index, fastq-dump, pigzの使い方。
マッピングに必要な準備としてリファレンスゲノムのダウンロード、インデックスファイルの作成、SRA形式からfastq形式への変換およびfastq.gzへの圧縮の3つの工程を行う。
今回使う主なコマンドはBWA index, fastq-dump, pigzの3種類。
Twitterで記事の更新をお知らせしているので、興味を持たれた方は是非フォローをお願いします。
フォローする @harrykun_blog
0. 作業するディレクトリへ移動する。
前回の続きなので、フォルダの中身はlsコマンドで表示される3つのファイルになる。
$ cd /path/to/working_dir/ $ ls ID_list.txt ERS_list.txt fasta
1. 必要なツールをインストールする。
#マッピングツールであるbwaのインストール $ conda install -c bioconda bwa #マッピングツールであるbwaのインストール $ conda install -c bioconda pigz
念のため、インストールができたことを確認する。
$ bwa
Program: bwa (alignment via Burrows-Wheeler transformation) Version: 0.7.17-r1188 Contact: Heng Li <lh3@sanger.ac.uk> Usage: bwa <command> [options] ・ ・ ・ Note: To use BWA, you need to first index the genome with `bwa index'. There are three alignment algorithms in BWA: `mem', `bwasw', and `aln/samse/sampe'. If you are not sure which to use, try `bwa mem' first. Please `man ./bwa.1' for the manual.
が表示される。
2. マッピングに使うリファレンスゲノムをPlasmoDBからダウンロードする。
PlasmoDBのサイトでPlasmodium facriparum3D7の既製のファイルをダウンロードする。
Data→Download data files→Current release→Pfalciparum3D7/→fasta→data/
→PlasmoDB-52_Pfalciparum3D7_Genome.fastaをクリックしてダウンロードし、workingdir/3D7_genomesに保存した。(23MB)
3. マッピングに必要となるインデックスファイルを作成する。
$ bwa index ./3D7_genomes/PlasmoDB-52_Pfalciparum3D7_Genome.fasta
成功すると、以下のようなファイルが生成される。
$ ls ./3D7_genomes PlasmoDB-52_Pfalciparum3D7_Genome.fasta PlasmoDB-52_Pfalciparum3D7_Genome.fasta.amb PlasmoDB-52_Pfalciparum3D7_Genome.fasta.ann PlasmoDB-52_Pfalciparum3D7_Genome.fasta.bwt PlasmoDB-52_Pfalciparum3D7_Genome.fasta.pac PlasmoDB-52_Pfalciparum3D7_Genome.fasta.sa
4. SRAファイルをFASTQ形式に変換する。
前回入手したSRAファイルをfastqファイルに変換する。ただし。fastqファイルは容量が大きいため、すぐにpigzコマンドを実行してFASTQ.gzに変換する。
mkdir fastq while read line; do fastq-dump --split-files ./fasta/sra/$line.sra --outdir ./fastq pigz ./fastq/$line*fastq ; done < ID_list.txt
正常に終わるとfastqの中に以下のファイルが生成される。
sraファイルは削除してもOK。
ls fastq ERR1081237_1.fastq.gz ERR1081241_1.fastq.gz ERR1081255_1.fastq.gz ERR1081262_1.fastq.gz ERR1081265_1.fastq.gz ERR1081285_1.fastq.gz ERR1099215_1.fastq.gz ERR1081237_2.fastq.gz ERR1081241_2.fastq.gz ERR1081255_2.fastq.gz ERR1081262_2.fastq.gz ERR1081265_2.fastq.gz ERR1081285_2.fastq.gz ERR1099215_2.fastq.gz ERR1081238_1.fastq.gz ERR1081242_1.fastq.gz ERR1081257_1.fastq.gz ERR1081263_1.fastq.gz ERR1081283_1.fastq.gz ERR1081287_1.fastq.gz ERR1106549_1.fastq.gz ERR1081238_2.fastq.gz ERR1081242_2.fastq.gz ERR1081257_2.fastq.gz ERR1081263_2.fastq.gz ERR1081283_2.fastq.gz ERR1081287_2.fastq.gz ERR1106549_2.fastq.gz ERR1081239_1.fastq.gz ERR1081254_1.fastq.gz ERR1081261_1.fastq.gz ERR1081264_1.fastq.gz ERR1081284_1.fastq.gz ERR1099214_1.fastq.gz ERR1081239_2.fastq.gz ERR1081254_2.fastq.gz ERR1081261_2.fastq.gz ERR1081264_2.fastq.gz ERR1081284_2.fastq.gz ERR1099214_2.fastq.gz
今回はこれで終わりです。 次回は、リファレンスゲノムへのマッピングを実施します。