Qualimap2でBAMファイルのカバレッジを見る
Qualimapのコマンドラインでの使い方
バイオインフォマティクスを始めたばかりで、マッピングで出力されたBAMファイルをどうやって評価するか分からず悩んでいる人が大勢いると思います。ブログ主の場合、カバレッジを細かく知る必要があったため、マッピング結果の分析が重要でしたが、聞ける人が周りに居らず非常に苦労しました。その時の経験を活かして、BAMファイルを解析するツールをなるべく多く紹介していきたいと考えています。
今回は、私の知る限りではもっとも簡単にマッピング結果の概略を知ることができるQualimapの使い方を具体例を使って説明したいと思います。QualimapはGUIで動かすこともできますが、コマンドで使い方を覚えた方が楽ちんです。非常に簡単なのでぜひ挑戦してみてください。
Twitterで記事の更新をお知らせしているので、興味を持たれた方は是非フォローをお願いします。
フォローする @harrykun_blog
eupatho-bioinfomatics.hatenablog.com
1. Qualimapのインストール
conda create -n qualimap-env -y qualimap conda activate qualimap-env
インストールできたか確認する。
qualimap -h
Command line run, unsetting DISPLAY variable... Display: Java memory size is set to 1200M Launching application... QualiMap v.2.2.2-dev Built on 2016-12-11 14:41 usage: qualimap <tool> [options] To launch GUI leave <tool> empty. Available tools: bamqc Evaluate NGS mapping to a reference genome rnaseq Evaluate RNA-seq alignment data counts Counts data analysis (further RNA-seq data evaluation) multi-bamqc Compare QC reports from multiple NGS mappings clustering Cluster epigenomic signals comp-counts Compute feature counts Special arguments: --java-mem-size Use this argument to set Java memory heap size. Example: qualimap bamqc -bam very_large_alignment.bam --java-mem-size=4G
が表示される。
2. Qualimapのオプションについて
Qualimapのサイトに詳細なマニュアルがあるので必要に応じて参考にして欲しいが、筆者がよく使うのはMulti-sample BAM QCである。BAMファイルの情報をテキストデータに入力し、このモードで使用すると複数のBAMファイルに対して個別の解析結果と全体の結果の両方が得られる。他にも、一つのBAMファイルを対象とするモードや、RNAを対象とするモードがある。実際の使用例を以下で説明する。なお、本ブログの過去記事↓
eupatho-bioinfomatics.hatenablog.com
で作成したマラリア原虫のBAMファイルを例として用いる。
3. メタデータをInput.txtとして作成する。
サンプル名 path/to/bam group1
サンプル名 path/to/bam group2
・
・・・の形式で用意する。
今回は、
cat Input.txt FP0008-C ./bam/ERR1081237.sort.bam group1 FP0009-C ./bam/ERR1081238.sort.bam group1 FP0015-C ./bam/ERR1081239.sort.bam group1 FP0017-C ./bam/ERR1081241.sort.bam group1 FP0018-C ./bam/ERR1081242.sort.bam group1 FP0039-C ./bam/ERR1081254.sort.bam group2 FP0040-C ./bam/ERR1099214.sort.bam group2 FP0041-C ./bam/ERR1081255.sort.bam group2 FP0043-C ./bam/ERR1081257.sort.bam group2 FP0044-C ./bam/ERR1099215.sort.bam group2 FP0051-C ./bam/ERR1081261.sort.bam group3 FP0052-C ./bam/ERR1081262.sort.bam group3 FP0054-C ./bam/ERR1081263.sort.bam group3 FP0055-C ./bam/ERR1081264.sort.bam group3 FP0056-C ./bam/ERR1081265.sort.bam group3 FP0082-C ./bam/ERR1081283.sort.bam group4 FP0084-C ./bam/ERR1081284.sort.bam group4 FP0089-C ./bam/ERR1081285.sort.bam group4
4. Qualimapを実行する。
qualimap multi-bamqc -d Input.txt -outdir qualimap_results -outformat pdf -r
すると、全体の結果をまとめたreport.pdfと個々の結果が入ったXXX.statというフォルダが作られます。
たくさんの図が出力されます。例えば
5. おまけ
データの根拠となった数値がxxx.statフォルダの中にテキストデータで入っているので、これを使って自分でグラフを作成することもできる。
今回はこれで終わりです。 よければ他の記事のも見ていってください。