バイオインフォマティクスでゲノムワイド関連解析(GWAS)

バイオインフォマティクスを頑張っている方が、本ブログの内容を真似することで、自分のデータで解析ができる情報を提供することが目標です! 今はGATKの解説をメインテーマにしています。

MENU

MEGA Xを使って系統樹を作成する。[MEGA X]

MEGA Xの使い方, 病原体ゲノムデータベース(PlasmoDB)の使い方。

導入難易度★★☆☆☆
使用難易度★★☆☆☆

この記事を読むと何ができる?

  • 公共データベースからマラリア原虫のMAF1遺伝子のアミノ酸配列を収集し、それを使って分子系統解析を行う方法を紹介します。

  • 昨今、さまざまな動物あるいは病原体の塩基配列やアミノ酸配列が公開されています。それらを収集することで、自分の興味のある配列と、既知の配列の類似性/相違性を比較解析することができます。

  • フリーソフトウェアを使って系統樹を作成して生物学的な関係について検討することができます。

    私の思うGWASにおける系統解析の重要性とは?

    半人前な私の意見ですが、GWAS(ゲノムワイド関連解析)の精度を高め、ヒトの病因遺伝子(あるいは私の分野では病原体の毒性遺伝子)を同定するためには、正確なクラスター(似ている集団)とバックボーンを正確に把握することが非常に重要であると感じています。

    なぜなら、クラスターを正確に捉えることで最も効果的な実験群を設定することが可能となり、GWASの検出力を大きく高めることにつながるからです。 また、作成した系統図を正確に解釈するためには、既知の系統関係が問題なく表現されているか、地理的要因や病原体の表現型などのさまざまなファクターを重ね合わせて考察できるだけの背景知識を十分に持っているかが重要になると思います。

    Twitterで記事の更新をお知らせしているので、興味を持たれた方は是非フォローをお願いします。

他の人気記事は↓こちら

eupatho-bioinfomatics.hatenablog.com

eupatho-bioinfomatics.hatenablog.com

eupatho-bioinfomatics.hatenablog.com

MEGAのインストール

① MEGAの公式HPにアクセスする。
f:id:Harry-kun:20210629085201p:plain

② 自身の環境に合わせたバージョンを選択し、緑枠のDOWNLOADをクリックする。

③ 指示に従ってすすめるとインストールが完了する。

アライメントする遺伝子の参照配列を収集する。

まず、マラリア原虫のゲノムデータベースであるPlasmoDBにアクセスする。

f:id:Harry-kun:20210613121444p:plain

①検索windowに「MAF1」と入力して検索する。

2 Gene - PF3D7_0416500を選択する。
f:id:Harry-kun:20210629085811p:plain

3 左下部のBOXから、12 Sequencesを選択する。

4 下図のように、アミノ酸配列や塩基配列が表示される。
f:id:Harry-kun:20210629090007p:plain

5 今回はアミノ酸配列を使用するので、一番上のCopy to clipboardを選択する。

参照配列を基にして、他マラリア原虫株における相同遺伝子の配列を収集する


6 最初のページ戻り、上部のToolからBLASTを選択する。

7 アミノ酸配列なのでProteinとBlastpを選択する
(塩基配列の場合はTranscriptもしくはGenomeとblastn)

8 適当にPlasmodiumの種類を選択して、コピーした配列を貼り付ける。
f:id:Harry-kun:20210629090636p:plain

9 Run stepをクリックすると、下のような結果が得られる。 f:id:Harry-kun:20210629091405p:plain

10 配列情報を一括でダウンロードしたいので、Downloadをクリックする。

11 FASTAをクリックする。

12 下図のように設定し、Get sequenceをクリックする。 f:id:Harry-kun:20210629092012p:plain

13 GenesBySimilarity.fastaがダウンロードされる。


 あと一息です! MEGAの使い方が、図表付きで説明されている参考書を貼り付けておきます。気になったら覗いてみてください。 他にもいろんなウェブツールの使い方が載っています。なお、記載はMEGA7のものですが、操作はおおよそ同じです。



MEGAを実行する。

先ほどインストールしたMEGA Xを起動する。

1 GenesBySimilarity.fastaをドラッグしてMEGAXで開く。

2 AlignかAnalyzeか聞かれるのでAlignを選択する。
f:id:Harry-kun:20210629093009p:plain

3 筋肉マークのMUSCLEアルゴリズムを使ってアライメントする。

4 とりあえずデフォルトでOKを選択する。

5 すると、下図のようにアライメントされた結果が表示される。
f:id:Harry-kun:20210629093227p:plain

6 ツールバーのDATAからPhylogenetic analysisを選択する。

アライメントの中に*が含まれているとエラーが出ます。
手動かテキストソフトを使って-に置換してください。

7 すると、最初の画面にXXXX.megというファイルができる。

8 下部のメニューバーからPhylogenyを選択する。 f:id:Harry-kun:20210629093648p:plain

9 今回はMaximum Liklihood(最尤法)選ぶ。

MEGA Xに実装されているのは、以下のようなものがある。

  • 近隣結合法(Neighbor-joining method;NJ 法)

    距離行列から段階的に近隣を見出すことで、系統樹を構築する。 「全ての枝の長さの合計が最小」となるようなトポロジーが望ましいという基準に基づいている。 計算効率が高く、他の解析手法で実施不可能なほど大量のデータを扱うことができる。


  • 最大節約法(Maximum parsimony method;MP法)

    系統樹上の進化的置換数の合計を最小化する最大節約原理の もとに系統推定を行う網羅的探索手法を利用した方法である。最大節約法では配列上に おいて一致するサイトは系統推定に考慮されないので枝長の分の計算量がなくて済む。この方法の特徴としては、複数回の置換が起こっている場合を検出できないので枝長の過小推定が起 こること、また配列の進化速度の一定性が成り立たないはもとより、成り立つ場合にも統計学的推定で重要な一致性を満たされないことがある。

  • 最尤法(Maximum likelihood method;ML法)

    想定される樹形ごとに手持ちの配列が得られる「尤度」を求め、最も尤度の高い樹 形を採用する方法。塩基やアミノ酸配列の置換に関する確率モデルを仮定した上で、尤度を計算する。 難点は計算量が多いこと → NJ法などで生成した初期系統樹と、それを枝交換して改変した系統樹の尤度を計算し、比較することを繰り返す

尤度 →あるモデルが正しいと仮定した状況で手元のデータが得られる確率

  • UPGMA(平均距離法)

    距離の算術平均の小さなものから結合することにより得られる樹形を選ぶ、段階的探索法の一種 進化速度の一定性が仮定されるため,有根系統樹が得られる 一番簡単な方法で計算も容易であるが,進化速度一定の仮定が必要であるため,進化速度が系統間で異なるときは誤った推定を行いやすい.

Bootstrap値について、

作成した系統樹の信頼性を評価する方法 系統樹の作成に用いたアミノ酸配列を大量に複製(リサンプリング)し、それぞれ のリサンプルデータから推定される系統樹が元データの系統樹を支持する確率を求める



参考にした資料のリンクを貼っておきます。

資料リンク1
資料リンク2

10 デフォルトで実施する。

11 系統樹が得られる。 f:id:Harry-kun:20210629094202p:plain

お疲れ様でした!!
今回はこれで終わりです。よければ他の記事のも見ていってください。

MEGA XにはGUI版だけでなくCommnad lineモードも存在します。

私は使ったことがないので、時間ができたときにそちらも勉強していつか紹介したいです。

最近は、RAxMLを使った解析に切り替えたので、そちらを別の記事で詳しく解説しています。
MEGAはアライメントを視覚的に見るのに便利なので、アライメント用に使っています。

eupatho-bioinfomatics.hatenablog.com

なお、本記事の執筆にあたり、生命科学データベースウェブツール(MEDSI)を参考にしました。