VCFファイルとはなにかを説明します-後編
VCF (Variant call format)ファイルの見方
今回は何をする?
本記事は、VCFファイルを解説する記事の後編です。
前半をご覧になっていない方はこちらからどうぞ。
後編では各バリアントサイトのレコードに付随する項目やスコアについて説明します。
GATK公式HPのVCFについてのリンク
今回はこちらで用意したVCFファイルをもとに説明していきます。すべてを貼り付けると長大になってしまうため、一部を抜粋します。 全体を見たい方はこちらのリンクからダウンロードしてください。(400MBほど) メインコンテンツのGATK解説シリーズで、このVCFファイルを得る手順を詳しく解説していますので、興味を持たれた方はそちらものぞいてみてください。
eupatho-bioinfomatics.hatenablog.com
Twitterで記事の更新をお知らせしているので、興味を持たれた方は是非フォローをお願いします。 フォローする @harrykun_blog
eupatho-bioinfomatics.hatenablog.com
1. バリアントサイトの各項目について
各バリアントサイトのレコードは、次の10個の要素で構成されています。
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT sample-nameが続く・・・ .
1行だけ抜粋したものを下に記載します。
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT ERR015377 Pf3D7_01_v3 110 . A C 124.72 . AC=1;AF=0.071;AN=14;DP=99;FS=0.000;MLEAC=2;MLEAF=0.143;MQ=36.03;QD=31.18;SOR=3.258 GT:AD:DP:GQ:PL 0:9,0:9:99:0,135
それでは順番に見ていきましょう。
CHROMとPOS
#CHROM POS Pf3D7_01_v3 110 Pf3D7_01_v3 260 Pf3D7_01_v3 264
バリアントがあるコンティグとゲノムの座標情報です。
欠失の場合は、実際にはその前の塩基が指定されることに注意。
ID
#CHROM ID Pf3D7_01_v3 . Pf3D7_01_v3 . Pf3D7_01_v3 .
バリアントの識別子。参照したデータベースに、このサイトのレコードが存在すると記載されます。
情報がない場合は、「・」で表記されます。
典型的な識別子はdbSNPのIDで、ヒトのデータではrs28548431のようになります。
REFとALT
#CHROM REF ALT Pf3D7_01_v3 A C Pf3D7_01_v3 C CTCTTACTTACTTACT
参照遺伝子と対立遺伝子が記載されています。そのバリアントがSNPなのかインデルなのかを教えてくれます。上記の例の場合、一つ目がSNPで、二つ目がインデルです。
QUAL
#CHROM QUAL Pf3D7_01_v3 124.72 Pf3D7_01_v3 251.07 Pf3D7_01_v3 248.82
シーケンスデータから、この部位にREF/ALT多型が存在する可能性をPhred-scaledで表したものです。Phred-scaledについてはこちらを参照してください。ちなみに10=10分の1、20は100分の1のエラー確率を表します。ただし、この値は大量のサンプルを用いてバリアントコールを行うと、非常に大きくなる可能性があるため、QUALはバリアントコールの品質を評価するためにはあまり有用な数値ではありません。
FILTER
#CHROM FILTER Pf3D7_01_v3 . Pf3D7_01_v3 . Pf3D7_01_v3 .
このセルにはフィルタリングの条件を満たさなかったフィルター名、もしくは設定した全てのフィルターを通過した場合は PASS という値が入ります。FILTER の値が [.]の場合、そのレコードにはフィルターが適用されていません。バリアントのコールセットを後の分析で使用する前に、適切なフィルターを適用することが非常に重要です。
INFO
#CHROM INFO Pf3D7_01_v3 AC=1;AF=0.071;AN=14;DP=99;FS=0.000;MLEAC=2;MLEAF=0.143;MQ=36.03;QD=31.18;SOR=3.258
バリアントサイト(そのSNP/INDELの総合的な)のアノテーション。このセルに含まれるアノテーションはタグと値のペアで表され、上記のように、タグと値は等号(=)で、ペアはコロン( ; )で区切られます。
例えば、
AC: 対立遺伝子の出現回数、リストと同じ順序で表記
AF: 対立遺伝子のアレル頻度、リストと同じ順序で表記
AN: Callされた遺伝子型の総数 (サンプルのploidy数の総数-欠損したサンプル数)
DP: 全サンプルの合計カバレッジ
各項目の詳しい説明はGATKのHPリンク下部のVariant Annotationsを参照してください。
2. FORMAT
#CHROM FORMAT ERR015377 Pf3D7_01_v3 GT:AD:DP:GQ:PL 0:9,0:9:99:0,135
残りはサンプルレベルのアノテーションになります。INFOと同様にタグと値のペアで表記されますが、FORMATの場合はタグのみが、FORMATのセルに記述されています。後に続く各サンプルの列に、対応する値が同じ順序で記載されています。
GT
サンプルの遺伝子型です。REF対立遺伝子は0、1番目のALT対立遺伝子は1、2番目のALT対立遺伝子は2と表記されます。ALT対立遺伝子が1つの2倍体の生物の場合、下のいずれかになります。
- 0/0 : REF対立遺伝子のホモ接合型。
- 0/1 : REF対立遺伝子とALT対立遺伝子をそれぞれ1コピーずつ持つヘテロ接合型
- 1/1 : ALT対立遺伝子のホモ接合型
ADとDP
アレル深度(AD)とカバレッジ深度(DP)です。
アレル深度(AD)はunfiltered alleleの対立遺伝子のカバレッジです。つまりそれぞれの対立遺伝子をサポートするそれぞれのリード数です。その位置にあるすべてのリード(フィルターを通過しなかったリードを含む)は、情報がない(uninformative)とみなされたリードを除いて、この数に含まれます。
カバレッジ深度(DP)は、カバレッジの深さ。つまりそれぞれの対立遺伝子を支持するフィルタリングされたリード数を示します。ただし、ADとは異なり、情報量の少ない(uninformative)リードもDPには含まれます。
GQ
Genotype Quality は,遺伝子型の PL から得られる,遺伝子型の割り当て(GT)が正しいという確度を Phred で表したものです。具体的には,2番目に可能性の高い遺伝子型のPLと,最も可能性の高い遺伝子型のPLの差がGQとなります。後述するPLの値は、最も可能性の高いPLが常に0になるように正規化されるため、GQは、PLが99より大きくない限り、2番目に小さいPLと等しくなります。 GATKでは、GQの値は99が上限となっています。つまり、GQが低ければ、その遺伝子型に対する信頼度が低いことを示しています。
PL
可能性のある遺伝子型の "正規化された "Phred-scaleの尤度。二倍体の生物でALT対立遺伝子が1つだけある典型的なケースでは、PLフィールドには3つの数字が含まれ、3つの可能な遺伝子型(0/0、0/1、1/1)に対応しています。PL値は「正規化」されており、最も可能性の高い遺伝子型(GTに割り当てられている)のPLがPhred -scaleで0になるようになっています。つまり、PLの値は「その遺伝子型が最良のものと比較してどれだけ可能性が低いか」を示します。
お疲れ様でした。
今回はこれで終わりです。
よかったら他の記事もみていってください。
なお本記事は、大部分をGATK公式HPの内容を元に、自分で用意したデータセットを使って執筆しています。
次回の記事は↓こちら