バイオインフォマティクスでゲノムワイド関連解析(GWAS)

バイオインフォマティクスを頑張っている方が、本ブログの内容を真似することで、自分のデータで解析ができる情報を提供することが目標です! 今はGATKの解説をメインテーマにしています。

MENU

VCFファイルとはなにかを説明します-後編

VCF (Variant call format)ファイルの見方

今回は何をする?

  • 本記事は、VCFファイルを解説する記事の後編です

  • 前半をご覧になっていない方はこちらからどうぞ。

  • 後編では各バリアントサイトのレコードに付随する項目やスコアについて説明します。

  • GATK公式HPのVCFについてのリンク

    今回はこちらで用意したVCFファイルをもとに説明していきます。すべてを貼り付けると長大になってしまうため、一部を抜粋します。 全体を見たい方はこちらのリンクからダウンロードしてください。(400MBほど) メインコンテンツのGATK解説シリーズで、このVCFファイルを得る手順を詳しく解説していますので、興味を持たれた方はそちらものぞいてみてください。
    eupatho-bioinfomatics.hatenablog.com

    Twitterで記事の更新をお知らせしているので、興味を持たれた方は是非フォローをお願いします。
    eupatho-bioinfomatics.hatenablog.com

1. バリアントサイトの各項目について

各バリアントサイトのレコードは、次の10個の要素で構成されています。

#CHROM  POS  ID  REF  ALT  QUAL  FILTER  INFO  FORMAT  sample-nameが続く・・・ .

1行だけ抜粋したものを下に記載します。

#CHROM   POS ID  REF ALT QUAL    FILTER  INFO    FORMAT  ERR015377
Pf3D7_01_v3 110 .   A   C   124.72  .   AC=1;AF=0.071;AN=14;DP=99;FS=0.000;MLEAC=2;MLEAF=0.143;MQ=36.03;QD=31.18;SOR=3.258  GT:AD:DP:GQ:PL  0:9,0:9:99:0,135


それでは順番に見ていきましょう。



CHROMとPOS

#CHROM   POS
Pf3D7_01_v3 110
Pf3D7_01_v3 260
Pf3D7_01_v3 264


バリアントがあるコンティグとゲノムの座標情報です。
欠失の場合は、実際にはその前の塩基が指定されることに注意。

ID

#CHROM   ID
Pf3D7_01_v3 .
Pf3D7_01_v3 .
Pf3D7_01_v3 .


バリアントの識別子。参照したデータベースに、このサイトのレコードが存在すると記載されます。
情報がない場合は、「・」で表記されます。 典型的な識別子はdbSNPのIDで、ヒトのデータではrs28548431のようになります。

REFとALT

#CHROM   REF ALT
Pf3D7_01_v3 A   C
Pf3D7_01_v3 C   CTCTTACTTACTTACT


参照遺伝子と対立遺伝子が記載されています。そのバリアントがSNPなのかインデルなのかを教えてくれます。上記の例の場合、一つ目がSNPで、二つ目がインデルです。

QUAL

#CHROM   QUAL
Pf3D7_01_v3 124.72
Pf3D7_01_v3 251.07
Pf3D7_01_v3 248.82


シーケンスデータから、この部位にREF/ALT多型が存在する可能性をPhred-scaledで表したものです。Phred-scaledについてはこちらを参照してください。ちなみに10=10分の1、20は100分の1のエラー確率を表します。ただし、この値は大量のサンプルを用いてバリアントコールを行うと、非常に大きくなる可能性があるため、QUALはバリアントコールの品質を評価するためにはあまり有用な数値ではありません


FILTER

#CHROM   FILTER
Pf3D7_01_v3 .
Pf3D7_01_v3 .
Pf3D7_01_v3 .


このセルにはフィルタリングの条件を満たさなかったフィルター名、もしくは設定した全てのフィルターを通過した場合は PASS という値が入ります。FILTER の値が [.]の場合、そのレコードにはフィルターが適用されていません。バリアントのコールセットを後の分析で使用する前に、適切なフィルターを適用することが非常に重要です

INFO

#CHROM   INFO
Pf3D7_01_v3 AC=1;AF=0.071;AN=14;DP=99;FS=0.000;MLEAC=2;MLEAF=0.143;MQ=36.03;QD=31.18;SOR=3.258


バリアントサイト(そのSNP/INDELの総合的な)のアノテーション。このセルに含まれるアノテーションはタグのペアで表され、上記のように、タグと値は等号(=)で、ペアはコロン( ; )で区切られます。
例えば、
AC: 対立遺伝子の出現回数、リストと同じ順序で表記
AF: 対立遺伝子のアレル頻度、リストと同じ順序で表記
AN: Callされた遺伝子型の総数 (サンプルのploidy数の総数-欠損したサンプル数)
DP: 全サンプルの合計カバレッジ

各項目の詳しい説明はGATKのHPリンク下部のVariant Annotationsを参照してください。

2. FORMAT


#CHROM   FORMAT  ERR015377
Pf3D7_01_v3 GT:AD:DP:GQ:PL  0:9,0:9:99:0,135


残りはサンプルレベルのアノテーションになります。INFOと同様にタグと値のペアで表記されますが、FORMATの場合はタグのみが、FORMATのセルに記述されています。後に続く各サンプルの列に、対応する値が同じ順序で記載されています。

GT

サンプルの遺伝子型です。REF対立遺伝子は0、1番目のALT対立遺伝子は1、2番目のALT対立遺伝子は2と表記されます。ALT対立遺伝子が1つの2倍体の生物の場合、下のいずれかになります。

  • 0/0 : REF対立遺伝子のホモ接合型。
  • 0/1 : REF対立遺伝子とALT対立遺伝子をそれぞれ1コピーずつ持つヘテロ接合型
  • 1/1 : ALT対立遺伝子のホモ接合型


    ADとDP

アレル深度(AD)とカバレッジ深度(DP)です。

アレル深度(AD)はunfiltered alleleの対立遺伝子のカバレッジです。つまりそれぞれの対立遺伝子をサポートするそれぞれのリード数です。その位置にあるすべてのリード(フィルターを通過しなかったリードを含む)は、情報がない(uninformative)とみなされたリードを除いて、この数に含まれます。

カバレッジ深度(DP)は、カバレッジの深さ。つまりそれぞれの対立遺伝子を支持するフィルタリングされたリード数を示します。ただし、ADとは異なり、情報量の少ない(uninformative)リードもDPには含まれます。

GQ
Genotype Quality は,遺伝子型の PL から得られる,遺伝子型の割り当て(GT)が正しいという確度を Phred で表したものです。具体的には,2番目に可能性の高い遺伝子型のPLと,最も可能性の高い遺伝子型のPLの差がGQとなります。後述するPLの値は、最も可能性の高いPLが常に0になるように正規化されるため、GQは、PLが99より大きくない限り、2番目に小さいPLと等しくなります。 GATKでは、GQの値は99が上限となっています。つまり、GQが低ければ、その遺伝子型に対する信頼度が低いことを示しています

PL

可能性のある遺伝子型の "正規化された "Phred-scaleの尤度。二倍体の生物でALT対立遺伝子が1つだけある典型的なケースでは、PLフィールドには3つの数字が含まれ、3つの可能な遺伝子型(0/0、0/1、1/1)に対応しています。PL値は「正規化」されており、最も可能性の高い遺伝子型(GTに割り当てられている)のPLがPhred -scaleで0になるようになっています。つまり、PLの値は「その遺伝子型が最良のものと比較してどれだけ可能性が低いか」を示します。

お疲れ様でした。
今回はこれで終わりです。
よかったら他の記事もみていってください。 なお本記事は、大部分をGATK公式HPの内容を元に、自分で用意したデータセットを使って執筆しています。

次回の記事は↓こちら

eupatho-bioinfomatics.hatenablog.com