使用するツール Cat, Trimmomatic, Picard FastqToSam, Bedtools bamtofastq 今回は何をする? 最近、カバレッジの不足を補うために、別々に実施したWGSデータを合体させて解析に使う機会がありました。 「単純にcatコマンドで合成するだけでできるよ」と共…
GATK FastaAlternateReferanceMakerの使い方 使用難易度★★★★☆ 本記事は、GATK解説シリーズのPart 11です。 GATK解説シリーズのリンクまとめは↓こちら GATKの導入方法から、変異情報の取得までをハプロイドの病原体を使った実例とともに紹介しています。 eupa…
主な使用ツール; RAxML-NG, Modeltest-NG, FigTree 使用難易度★★★☆☆ Produce an ML phylogeny by RAxML-NG@Harrykun_blog 今回は何をする? 前回の記事で取得したSNP情報を基に最尤法による系統解析を行います。 全ゲノムスケールのSNP情報を使用することで…
GATK BQSR後のVariant Calling 使用難易度★☆☆☆☆ 本記事は、GATK解説シリーズのPart 10です。 GATK解説シリーズのリンクまとめは↓こちら eupatho-bioinfomatics.hatenablog.com 今回は何をする? 前回のGATK VariantFilterationで出力された、*.bqsr.bamを基…
GATK BaseRecalibrator, ApplyBQSR 使用難易度★☆☆☆☆ 本記事は、GATK解説シリーズのPart 9です。 GATK解説シリーズのリンクまとめは↓こちら eupatho-bioinfomatics.hatenablog.com 今回は何をする? 前回のGATK VariantFilterationで出力された、merged_snps/…
GATK VariantFiltration 使用難易度★★★★★ 本記事は、GATK解説シリーズのPart 7-2です。 GATK解説シリーズのリンクまとめは↓こちら eupatho-bioinfomatics.hatenablog.com 今回は何をする? 前回のGATK SelectVariantsの使い方の続きになります。 GATK Varian…
GATK SelectVariants 使用難易度★★★★★ 本記事は、GATK解説シリーズのPart 7です。 GATK解説シリーズのリンクまとめは↓こちら eupatho-bioinfomatics.hatenablog.com 今回は何をする? GATK SelectVariantsを使って、Part 6の記事で得たmerged.vcfファイルか…
vcf2phylip.py 使用難易度★☆☆☆☆ 今回は何をする? VCFファイルを系統樹作成に使用するnexusやfasta、phy形式に変換できるプログラムです 簡単・短時間で実行できるので、SNPデータを使った系統解析を行う際に大活躍します。 Twitterで記事の更新をお知らせし…
ゲノム解析にちょこっと役立つ、でも知らないと損するツールを箇条書き程度の情報量で紹介します。 dos2unix Twitterで記事の更新をお知らせしているので、興味を持たれた方は是非フォローをお願いします。 フォローする @harrykun_blog CRLFテキストをUnix…
VCF (Variant call format)ファイルの見方 今回は何をする? 本記事は、VCFファイルを解説する記事の後編です。 前半をご覧になっていない方はこちらからどうぞ。 後編では各バリアントサイトのレコードに付随する項目やスコアについて説明します。 GATK公式…
VCF (Variant call format)ファイルの見方 今回は何をする? これまでに全くVCFファイルに触れたことのない方に向けて、ファイルを構成する要素を詳しく解説します。 VCFは変異解析に不可欠な要素であり、必ず理解しなければなりません。 初めて見た時の感想…
GATK GenomicsDBimport, GATK GenotypeGVCFs, Picard VcfToIntervalList 使用難易度★★★☆☆ 本記事は、GATK解説シリーズのPart 6です。 eupatho-bioinfomatics.hatenablog.com 今回は何をする? GATK GenomicsDBimport および GATK GenotypeGVCFs を使って、前…
GATK HaplotypeCaller 使用難易度★★★☆☆ 本記事は、GATK解説シリーズのPart 5の後編です。 eupatho-bioinfomatics.hatenablog.com 前編の記事は↓こちら eupatho-bioinfomatics.hatenablog.com 今回は何をする? GATK HaplotypeCallerを使って、Part 4の記事で…
GATK HaplotypeCaller 使用難易度★★★☆☆ 本記事は、GATK解説シリーズのPart 5の前編です。 eupatho-bioinfomatics.hatenablog.com 今回は何をする? GATK HaplotypeCallerを使って、前回の記事で得たBAM形式ファイルから、変異情報の記載されたVCFファイルを…
GATK MarkDuplicate 使用難易度★★☆☆☆ 本記事は、GATK解説シリーズのPart 4です。 eupatho-bioinfomatics.hatenablog.com 今回は何をする? 前回の記事で得たBAM形式ファイルを使って、GATK MarkDuplicates/MarkDuplicateSparkにより重複したリードにタグを付…
バイオインフォマティクスを独学で勉強している中で、「参考になる本が知りたい!誰か教えて!」と思うことが頻繁にあります。専門的な分野なので書籍自体の数も多くない上に、Amazonのレビュー数も少ないです。そこで、私が読んだ範囲内で参考図書の紹介を…
FastQC, trimmomatic, bwa, samtools 導入難易度★☆☆☆☆ 使用難易度★★★☆☆ 今回は何をする? 前回の記事で収集したマラリア原虫のWGSデータを使ってマッピングを行い、BAM形式のファイルを生成します。内容は以前に投稿した下記の記事と重複しますが、これから…
GATKの使い方 BAMファイルからVCF出力までのロードマップ GATK4.2の使い方について、ロードマップを作成しました。 各partに対応した作業内容について、1つずつ記事にしています。 ちなみに、ブログ主の研究対象がハプロイドの病原体なので、とりあえず1倍…
sra-toolkit, fasterq-dump, sra-toolkit 導入難易度★☆☆☆☆ 使用難易度★★☆☆☆ 今回は何をする? 今後のGATK解析で使用するマラリア原虫のWGSデータを収集します。せっかくなので、以前のprefetchとは違うfasterq-dumpを使ったダウンロードの方法を紹介します。…
GATKの導入とPATHの通し方 今回は何をする? GATK4を自分のPCに導入します。 GATKとは GATKはBroad研究所が提供する、変異の検出に特化したゲノム解析ツールキットです。非常に多機能でゲノム解析分野で業界標準として広く使われていますが、操作難易度が高…
コマンドラインでのblastの使い方 導入難易度★☆☆☆☆ 使用難易度★★☆☆☆ このツールで何ができる? BLAST(Basic Local Alignment Search Tool) は、類似性のある配列を持つ領域を見つけるツールです。このプログラムは、核酸やタンパク質の配列を任意の配列デー…
MEGA Xの使い方, 病原体ゲノムデータベース(PlasmoDB)の使い方。 導入難易度★★☆☆☆ 使用難易度★★☆☆☆ この記事を読むと何ができる? 公共データベースからマラリア原虫のMAF1遺伝子のアミノ酸配列を収集し、それを使って分子系統解析を行う方法を紹介します…
plinkの使い方 導入難易度★☆☆☆☆ 使用難易度★★★☆☆ 使用するRのパッケージ: tidyverse, dplyr, cowplot 使用するRのコマンド: read.delim, read.csv, colnames, merge, ggplot, plot_grid この記事を読むと何ができるようになる? plinkを使ったGWAS解析の演習…
plinkの使い方 導入難易度★☆☆☆☆ 使用難易度★★★☆☆ この記事を読むと何ができるようになる? 今回から2回に分けて、plinkを使ったGWAS解析の演習を行います。まず、国際的なヒトゲノムプロジェクト(1000 Genome Project)により得られたシークエンスデータを公…
Trimmomaticの使い方 Trimmomaticの概要 Trimmomaticはマルチスレッド対応のトリミングツールです。 FASTQデータを入力として、アダプターや末端配列の除去に加えて、低品質リード[phredスコア]の除去が行えます。 入力ファイルとして、fastqファイルまたはg…
FastQCの使い方 導入難易度★☆☆☆☆ 使用難易度★☆☆☆☆ このツールで何ができる? WGSデータのための必須級品質管理ツールです。 一つのツールで多様な品質情報をアウトプットしてくれます。 私の使用感 別記事で紹介したFastQ screenとFastQCを、結果を得た日の…
MultiQCの使い方 導入難易度★☆☆☆☆ 使用難易度★☆☆☆☆ このツールで何ができる? MultiQCは、他のバイオインフォマティクスツールで生成された結果やログファイルを要約するレポートツールです。 MultiQCを起動すると、指定されたファイルパスを検索して適合す…
FastQ screenの使い方 導入難易度 低い★☆☆☆☆高い 使用難易度 低い★☆☆☆☆高い このツールで何ができる? Fastqに対して、任意の数のリファレンスゲノムをマッピングしてリード数を比較することで、ライブラリーの含まれるリード数の組成を%で知ることができる…
バイオインフォマティクス関連のおすすめ書籍を紹介します。 バイオインフォマティクスを勉強している中で、「参考になる本が知りたい!誰か教えて!」と思うことが頻繁にあります。専門的な分野なので書籍自体の数も多くない上に、Amazonのレビュー数も少な…
Samtools mpileupの使い方 samtools, bcftools, vcftools BAMファイルから変異情報を記述したVCF (Variant Call Format)という形式のファイルをbuildします。全ゲノムスケールの様々な解析にはVCFファイルが前提となることが多いため、GWAS(ゲノムワイド関…