バイオインフォマティクスでゲノムワイド関連解析(GWAS)

バイオインフォマティクスを頑張っている方が、本ブログの内容を真似することで、自分のデータで解析ができる情報を提供することが目標です! 今はGATKの解説をメインテーマにしています。

MENU

GATKによる変異検出のためのロードマップ [GATK解説シリーズのまとめ記事]

GATKの使い方 BAMファイルからVCF出力までのロードマップ


GATK4.2の使い方について、ロードマップを作成しました。
各partに対応した作業内容について、1つずつ記事にしています。

ちなみに、ブログ主の研究対象がハプロイドの病原体なので、とりあえず1倍体の生物を対象にしています。
いつになるかわかりませんが、ヒト(2倍体ゲノム)を使った内容も勉強して紹介したいと考えています。

新しい関連記事を投稿するごとに順次内容を更新しますので、本ブログでGATKに関する記事を検索したい方はこのページをブックマークされておくと便利に使っていただけると思います


Twitterで記事の更新をお知らせしているので、興味を持たれた方は是非フォローをお願いします。


f:id:Harry-kun:20210826101748p:plain
GATK Pipeline@Harry-kun

GATK解説シリーズ パート1 GATKの導入


GATKはBroad研究所が提供する、変異の検出に特化したゲノム解析ツールキットです。非常に多機能でゲノム解析分野で業界標準として広く使われていますが、操作難易度が高く、初心者は必ず躓くポイントになっています。GATKはもともとヒトゲノム解析用に開発されたものですが、現在ではあらゆる生物のゲノムデータを扱えるように進化しています。その範囲は、体細胞・生殖細胞のショートバリアント/インデル検出、コピー数(CNV)や構造変異(SV)への解析に及びます。また、GATKには、WGSの処理や品質管理などの関連作業を行うための多くのユーティリティが含まれており、頻繁に使われるPicardも搭載されています。また、GATKの読み方は(ジー・エー・ティー・ケイ)です。公式HPはこちら

eupatho-bioinfomatics.hatenablog.com

GATK解説シリーズ パート2 使用するWGSデータの収集


今後の解説で例として使用するマラリア原虫のWGSデータを収集します。ここでは。fasterq-dumpを使ったダウンロードの方法を紹介します。
この後は、GWASで使用する変異データの取得までを順番に紹介してきます。

eupatho-bioinfomatics.hatenablog.com

GATK解説シリーズ パート3 今後のGATK解析で使用するWGSデータのマッピング


前回の記事で収集したマラリア原虫のWGSデータを使ってマッピングを行い、BAM形式のファイルを生成します


本記事では、トリミングからマッピングまでの工程をコンパクトに記載しているので、実際にご自身のデータを使って再現される場合には、この記事のスクリプトを置き替える形で使ってもらえると便利だと思います。

eupatho-bioinfomatics.hatenablog.com

GATK解説シリーズ パート4 GATK MarkDuplicatesの使い方

  • 前回の記事で得たBAM形式ファイルを使って、GATK MarkDuplicates/MarkDuplicateSparkにより重複したリードにタグを付けます。

eupatho-bioinfomatics.hatenablog.com

GATK解説シリーズ パート5 GATK HaplotypeCallerの使い方

  • GATK HaplotypeCallerを使って、前回の記事で得たBAM形式ファイルから、変異情報の記載されたVCFファイルを出力します。

  • 前編では、GATK HaplotypeCallerについて解説しました。

  • 後編では、GATK HaplotypeCallerを実践します。

eupatho-bioinfomatics.hatenablog.com

eupatho-bioinfomatics.hatenablog.com

番外編 VCFとはなにかを説明します

  • これまでに全くVCFファイルに触れたことのない方に向けて、ファイルを構成する要素を詳しく解説します。
  • VCFは変異解析に不可欠な要素であり、決して避けては通れません。 初めて見た時の感想は、「うわ、ちんぷんかんぶん・・・」という印象を持つと思いますが、慣れてくると意外と単純な要素で構成されていることに気が付きます。VCFファイルの形式を理解しないと、GATKやvcf/bcftoolsを使ったフィルタリングで何をしているか理解できなくなってしまうので、この機会に一緒に勉強していきましょう。
  • 二つの記事を読み終わる頃には、きっとVCFファイルに対する苦手意識は無くなっていると思います!

前編では、VCFを構成する要素について順番に解説しました。

後編では各バリアントサイトのレコードに付随する項目やスコアについて説明しました。

eupatho-bioinfomatics.hatenablog.com

eupatho-bioinfomatics.hatenablog.com

GATK解説シリーズ パート6GATK JointGenotypingの使い方

  • GATK GenomicsDBimport および GATK GenotypeGVCFs を使ったJoint Genotypingを実施して、複数のvcfファイルをまとめたmerged.vcfファイルを出力します。

eupatho-bioinfomatics.hatenablog.com

GATK解説シリーズ パート7 GATK SelectVariantsの使い方

  • GATK SelectVariantsを使って、merged.vcfファイルから、自身の解析条件に適したフィルター条件を設定して、バリアントを選別します。

eupatho-bioinfomatics.hatenablog.com

GATK解説シリーズ パート8 GATK VariantFilterationの使い方

  • GATK VariantFiltrationを使って、vcfファイルから低クオリティのバリアントを除外します。

eupatho-bioinfomatics.hatenablog.com

GATK解説シリーズ パート9GATK BaseRecalibratorとApplyBQSRの使い方

  • 前回のGATK VariantFilterationで出力された、merged_snps/indels_filtered.vcfを基にBQSRを行います。

eupatho-bioinfomatics.hatenablog.com

GATK解説シリーズ パート10 GATK BQSR後のVariant Calling

  • 前回のGATK VariantFilterationで出力された、*.bqsr.bamを基に2回目のVariant Callingを行います

  • 今回行う内容は、GATK解説シリーズ Part 5 からPart 8で行った仕事の繰り返しになります。新しく覚えることは特にありません

  • 今回得たmerged_snps/indels_filtered.vcfを使って、多様なゲノムワイド解析を行うことができます

eupatho-bioinfomatics.hatenablog.com

SNPを使った解析の実践例 その1

eupatho-bioinfomatics.hatenablog.com

参考サイト

GATKの公式HP

https://gatk.broadinstitute.org/hc/en-us

初めてGATKに触れる時に、非常にお世話になったサイト

bi.biopapyrus.jp