バイオインフォマティクスでゲノムワイド関連解析(GWAS)

バイオインフォマティクスを頑張っている方が、本ブログの内容を真似することで、自分のデータで解析ができる情報を提供することが目標です! 今はGATKの解説をメインテーマにしています。

MENU

Qualimap2でBAMファイルのカバレッジを見る

Qualimapのコマンドラインでの使い方

バイオインフォマティクスを始めたばかりで、マッピングで出力されたBAMファイルをどうやって評価するか分からず悩んでいる人が大勢いると思います。ブログ主の場合、カバレッジを細かく知る必要があったため、マッピング結果の分析が重要でしたが、聞ける人が周りに居らず非常に苦労しました。その時の経験を活かして、BAMファイルを解析するツールをなるべく多く紹介していきたいと考えています。

今回は、私の知る限りではもっとも簡単にマッピング結果の概略を知ることができるQualimapの使い方を具体例を使って説明したいと思います。QualimapはGUIで動かすこともできますが、コマンドで使い方を覚えた方が楽ちんです。非常に簡単なのでぜひ挑戦してみてください。


Twitterで記事の更新をお知らせしているので、興味を持たれた方は是非フォローをお願いします。

eupatho-bioinfomatics.hatenablog.com

1.  Qualimapのインストール

conda create -n qualimap-env -y qualimap
conda activate qualimap-env

インストールできたか確認する。

qualimap -h
Command line run, unsetting DISPLAY variable...
Display:
Java memory size is set to 1200M
Launching application...

QualiMap v.2.2.2-dev
Built on 2016-12-11 14:41

usage: qualimap <tool> [options]

To launch GUI leave <tool> empty.

Available tools:

    bamqc            Evaluate NGS mapping to a reference genome
    rnaseq           Evaluate RNA-seq alignment data
    counts           Counts data analysis (further RNA-seq data evaluation)
    multi-bamqc      Compare QC reports from multiple NGS mappings
    clustering       Cluster epigenomic signals
    comp-counts      Compute feature counts

Special arguments:

    --java-mem-size  Use this argument to set Java memory heap size. Example:
                     qualimap bamqc -bam very_large_alignment.bam --java-mem-size=4G

が表示される。

2. Qualimapのオプションについて

Qualimapのサイトに詳細なマニュアルがあるので必要に応じて参考にして欲しいが、筆者がよく使うのはMulti-sample BAM QCである。BAMファイルの情報をテキストデータに入力し、このモードで使用すると複数のBAMファイルに対して個別の解析結果と全体の結果の両方が得られる。他にも、一つのBAMファイルを対象とするモードや、RNAを対象とするモードがある。実際の使用例を以下で説明する。なお、本ブログの過去記事↓

eupatho-bioinfomatics.hatenablog.com

で作成したマラリア原虫のBAMファイルを例として用いる。

3. メタデータをInput.txtとして作成する。

サンプル名   path/to/bam   group1 
サンプル名   path/to/bam   group2
・
・・・の形式で用意する。


今回は、

cat Input.txt
FP0008-C    ./bam/ERR1081237.sort.bam    group1
FP0009-C    ./bam/ERR1081238.sort.bam    group1
FP0015-C    ./bam/ERR1081239.sort.bam    group1
FP0017-C    ./bam/ERR1081241.sort.bam    group1
FP0018-C    ./bam/ERR1081242.sort.bam    group1
FP0039-C    ./bam/ERR1081254.sort.bam    group2
FP0040-C    ./bam/ERR1099214.sort.bam    group2
FP0041-C    ./bam/ERR1081255.sort.bam    group2
FP0043-C    ./bam/ERR1081257.sort.bam    group2
FP0044-C    ./bam/ERR1099215.sort.bam    group2
FP0051-C    ./bam/ERR1081261.sort.bam    group3
FP0052-C    ./bam/ERR1081262.sort.bam    group3
FP0054-C    ./bam/ERR1081263.sort.bam    group3
FP0055-C    ./bam/ERR1081264.sort.bam    group3
FP0056-C    ./bam/ERR1081265.sort.bam    group3
FP0082-C    ./bam/ERR1081283.sort.bam    group4
FP0084-C    ./bam/ERR1081284.sort.bam    group4
FP0089-C    ./bam/ERR1081285.sort.bam    group4


4. Qualimapを実行する。

qualimap multi-bamqc -d Input.txt -outdir qualimap_results -outformat pdf -r


すると、全体の結果をまとめたreport.pdfと個々の結果が入ったXXX.statというフォルダが作られます。

f:id:Harry-kun:20210616093443p:plain
report.pdf

たくさんの図が出力されます。例えば

f:id:Harry-kun:20210616093810p:plain
主成分分析(PCA)
f:id:Harry-kun:20210616094009p:plain
ゲノムフラクションカバレッジ
f:id:Harry-kun:20210616093808p:plain
GC content:予想されるGC%と大きく異なる場合、シークエンスに問題がある可能性がある。マラリア原虫は非常にATリッチなので、これで大丈夫。

5. おまけ

データの根拠となった数値がxxx.statフォルダの中にテキストデータで入っているので、これを使って自分でグラフを作成することもできる。

今回はこれで終わりです。 よければ他の記事のも見ていってください。