バイオインフォマティクスでゲノムワイド関連解析(GWAS)

バイオインフォマティクスを頑張っている方が、本ブログの内容を真似することで、自分のデータで解析ができる情報を提供することが目標です! 今はGATKの解説をメインテーマにしています。

MENU

マージしたFastqを使ってMarkduplicateを実行するのに苦労した話

使用するツール Cat, Trimmomatic, Picard FastqToSam, Bedtools bamtofastq 今回は何をする? 最近、カバレッジの不足を補うために、別々に実施したWGSデータを合体させて解析に使う機会がありました。 「単純にcatコマンドで合成するだけでできるよ」と共…

GATK FastaAlternateReferanceMakerを使って代替参照配列を作成する

GATK FastaAlternateReferanceMakerの使い方 使用難易度★★★★☆ 本記事は、GATK解説シリーズのPart 11です。 GATK解説シリーズのリンクまとめは↓こちら GATKの導入方法から、変異情報の取得までをハプロイドの病原体を使った実例とともに紹介しています。 eupa…

RAxML-ngによるSNP系統解析の実践方法 [最尤法] [maximum likelihood]

主な使用ツール; RAxML-NG, Modeltest-NG, FigTree 使用難易度★★★☆☆ Produce an ML phylogeny by RAxML-NG@Harrykun_blog 今回は何をする? 前回の記事で取得したSNP情報を基に最尤法による系統解析を行います。 全ゲノムスケールのSNP情報を使用することで…

GATK BQSR後のVariant Calling -GATK解説シリーズ-part 10

GATK BQSR後のVariant Calling 使用難易度★☆☆☆☆ 本記事は、GATK解説シリーズのPart 10です。 GATK解説シリーズのリンクまとめは↓こちら eupatho-bioinfomatics.hatenablog.com 今回は何をする? 前回のGATK VariantFilterationで出力された、*.bqsr.bamを基…

GATK BaseRecalibratorとApplyBQSRの使い方 -GATK解説シリーズ-part 9

GATK BaseRecalibrator, ApplyBQSR 使用難易度★☆☆☆☆ 本記事は、GATK解説シリーズのPart 9です。 GATK解説シリーズのリンクまとめは↓こちら eupatho-bioinfomatics.hatenablog.com 今回は何をする? 前回のGATK VariantFilterationで出力された、merged_snps/…

GATK VariantFiltrationの使い方 -GATK解説シリーズ-part 8

GATK VariantFiltration 使用難易度★★★★★ 本記事は、GATK解説シリーズのPart 7-2です。 GATK解説シリーズのリンクまとめは↓こちら eupatho-bioinfomatics.hatenablog.com 今回は何をする? 前回のGATK SelectVariantsの使い方の続きになります。 GATK Varian…

GATK SelectVariantsの使い方 -GATK解説シリーズ-part 7

GATK SelectVariants 使用難易度★★★★★ 本記事は、GATK解説シリーズのPart 7です。 GATK解説シリーズのリンクまとめは↓こちら eupatho-bioinfomatics.hatenablog.com 今回は何をする? GATK SelectVariantsを使って、Part 6の記事で得たmerged.vcfファイルか…

vcf2phylip.pyの使い方-VCFをphy/fasta/nexusに変換する

vcf2phylip.py 使用難易度★☆☆☆☆ 今回は何をする? VCFファイルを系統樹作成に使用するnexusやfasta、phy形式に変換できるプログラムです 簡単・短時間で実行できるので、SNPデータを使った系統解析を行う際に大活躍します。 Twitterで記事の更新をお知らせし…

dos2unixの使い方-知らないと損するツール集 Part1 [dos2unix]

ゲノム解析にちょこっと役立つ、でも知らないと損するツールを箇条書き程度の情報量で紹介します。 dos2unix Twitterで記事の更新をお知らせしているので、興味を持たれた方は是非フォローをお願いします。 フォローする @harrykun_blog CRLFテキストをUnix…

VCFファイルとはなにかを説明します-後編

VCF (Variant call format)ファイルの見方 今回は何をする? 本記事は、VCFファイルを解説する記事の後編です。 前半をご覧になっていない方はこちらからどうぞ。 後編では各バリアントサイトのレコードに付随する項目やスコアについて説明します。 GATK公式…

VCFファイルとはなにかを説明します-前編

VCF (Variant call format)ファイルの見方 今回は何をする? これまでに全くVCFファイルに触れたことのない方に向けて、ファイルを構成する要素を詳しく解説します。 VCFは変異解析に不可欠な要素であり、必ず理解しなければなりません。 初めて見た時の感想…

GATK JointGenotyping -GATK解説シリーズ-part 6

GATK GenomicsDBimport, GATK GenotypeGVCFs, Picard VcfToIntervalList 使用難易度★★★☆☆ 本記事は、GATK解説シリーズのPart 6です。 eupatho-bioinfomatics.hatenablog.com 今回は何をする? GATK GenomicsDBimport および GATK GenotypeGVCFs を使って、前…

GATK HaplotypeCallerの使い方 後編 -GATK解説シリーズ-part 5

GATK HaplotypeCaller 使用難易度★★★☆☆ 本記事は、GATK解説シリーズのPart 5の後編です。 eupatho-bioinfomatics.hatenablog.com 前編の記事は↓こちら eupatho-bioinfomatics.hatenablog.com 今回は何をする? GATK HaplotypeCallerを使って、Part 4の記事で…

GATK HaplotypeCallerの使い方 前編 -GATK解説シリーズ-part 5

GATK HaplotypeCaller 使用難易度★★★☆☆ 本記事は、GATK解説シリーズのPart 5の前編です。 eupatho-bioinfomatics.hatenablog.com 今回は何をする? GATK HaplotypeCallerを使って、前回の記事で得たBAM形式ファイルから、変異情報の記載されたVCFファイルを…

GATK MarkDuplicatesの使い方 -GATK解説シリーズ-part 4

GATK MarkDuplicate 使用難易度★★☆☆☆ 本記事は、GATK解説シリーズのPart 4です。 eupatho-bioinfomatics.hatenablog.com 今回は何をする? 前回の記事で得たBAM形式ファイルを使って、GATK MarkDuplicates/MarkDuplicateSparkにより重複したリードにタグを付…

Rのおすすめ書籍

バイオインフォマティクスを独学で勉強している中で、「参考になる本が知りたい!誰か教えて!」と思うことが頻繁にあります。専門的な分野なので書籍自体の数も多くない上に、Amazonのレビュー数も少ないです。そこで、私が読んだ範囲内で参考図書の紹介を…

今後のGATK解析で使用するWGSデータのマッピング -GATK解説シリーズ-part 3

FastQC, trimmomatic, bwa, samtools 導入難易度★☆☆☆☆ 使用難易度★★★☆☆ 今回は何をする? 前回の記事で収集したマラリア原虫のWGSデータを使ってマッピングを行い、BAM形式のファイルを生成します。内容は以前に投稿した下記の記事と重複しますが、これから…

GATKによる変異検出のためのロードマップ [GATK解説シリーズのまとめ記事]

GATKの使い方 BAMファイルからVCF出力までのロードマップ GATK4.2の使い方について、ロードマップを作成しました。 各partに対応した作業内容について、1つずつ記事にしています。 ちなみに、ブログ主の研究対象がハプロイドの病原体なので、とりあえず1倍…

今後のGATK解析で使用するWGSデータの収集 -GATK解説シリーズ-part 2

sra-toolkit, fasterq-dump, sra-toolkit 導入難易度★☆☆☆☆ 使用難易度★★☆☆☆ 今回は何をする? 今後のGATK解析で使用するマラリア原虫のWGSデータを収集します。せっかくなので、以前のprefetchとは違うfasterq-dumpを使ったダウンロードの方法を紹介します。…

GATKの導入-GATK解説シリーズ-part 1

GATKの導入とPATHの通し方 今回は何をする? GATK4を自分のPCに導入します。 GATKとは GATKはBroad研究所が提供する、変異の検出に特化したゲノム解析ツールキットです。非常に多機能でゲノム解析分野で業界標準として広く使われていますが、操作難易度が高…

Local blastの使い方 [blastn]

コマンドラインでのblastの使い方 導入難易度★☆☆☆☆ 使用難易度★★☆☆☆ このツールで何ができる? BLAST(Basic Local Alignment Search Tool) は、類似性のある配列を持つ領域を見つけるツールです。このプログラムは、核酸やタンパク質の配列を任意の配列デー…

MEGA Xを使って系統樹を作成する。[MEGA X]

MEGA Xの使い方, 病原体ゲノムデータベース(PlasmoDB)の使い方。 導入難易度★★☆☆☆ 使用難易度★★☆☆☆ この記事を読むと何ができる? 公共データベースからマラリア原虫のMAF1遺伝子のアミノ酸配列を収集し、それを使って分子系統解析を行う方法を紹介します…

plinkを使ってゲノムの集団構造を体験する-パート2

plinkの使い方 導入難易度★☆☆☆☆ 使用難易度★★★☆☆ 使用するRのパッケージ: tidyverse, dplyr, cowplot 使用するRのコマンド: read.delim, read.csv, colnames, merge, ggplot, plot_grid この記事を読むと何ができるようになる? plinkを使ったGWAS解析の演習…

plinkを使ってゲノムの集団構造を体験する-パート1

plinkの使い方 導入難易度★☆☆☆☆ 使用難易度★★★☆☆ この記事を読むと何ができるようになる? 今回から2回に分けて、plinkを使ったGWAS解析の演習を行います。まず、国際的なヒトゲノムプロジェクト(1000 Genome Project)により得られたシークエンスデータを公…

Trimmomaticの使い方[WGSデータのトリミング]

Trimmomaticの使い方 Trimmomaticの概要 Trimmomaticはマルチスレッド対応のトリミングツールです。 FASTQデータを入力として、アダプターや末端配列の除去に加えて、低品質リード[phredスコア]の除去が行えます。 入力ファイルとして、fastqファイルまたはg…

WGSデータの品質管理[FastQC]

FastQCの使い方 導入難易度★☆☆☆☆ 使用難易度★☆☆☆☆ このツールで何ができる? WGSデータのための必須級品質管理ツールです。 一つのツールで多様な品質情報をアウトプットしてくれます。 私の使用感 別記事で紹介したFastQ screenとFastQCを、結果を得た日の…

MultiQCで分析結果をまとめてみる。[MultiQC]

MultiQCの使い方 導入難易度★☆☆☆☆ 使用難易度★☆☆☆☆ このツールで何ができる? MultiQCは、他のバイオインフォマティクスツールで生成された結果やログファイルを要約するレポートツールです。 MultiQCを起動すると、指定されたファイルパスを検索して適合す…

複数のレファレンスゲノムへのマッピングでライブラリーDNAの組成を知る[FastQ screen]

FastQ screenの使い方 導入難易度 低い★☆☆☆☆高い 使用難易度 低い★☆☆☆☆高い このツールで何ができる? Fastqに対して、任意の数のリファレンスゲノムをマッピングしてリード数を比較することで、ライブラリーの含まれるリード数の組成を%で知ることができる…

バイオインフォマティクスのおすすめ書籍紹介

バイオインフォマティクス関連のおすすめ書籍を紹介します。 バイオインフォマティクスを勉強している中で、「参考になる本が知りたい!誰か教えて!」と思うことが頻繁にあります。専門的な分野なので書籍自体の数も多くない上に、Amazonのレビュー数も少な…

SNP情報の取得[Samtools mpileup]

Samtools mpileupの使い方 samtools, bcftools, vcftools BAMファイルから変異情報を記述したVCF (Variant Call Format)という形式のファイルをbuildします。全ゲノムスケールの様々な解析にはVCFファイルが前提となることが多いため、GWAS(ゲノムワイド関…