生信格式之vcf格式
发布网友
发布时间:2022-11-28 22:13
我来回答
共1个回答
热心网友
时间:2023-10-24 10:35
如下图一般可分为三大类变异
(2) AD :allele depths,表示sample中该位点里不同allele的覆盖度,一般有两个,逗号分隔,分别表示REF(0)、ALT(1)的覆盖度。如果ALT有两种可能,则就有三个值。
(3) DP :表示sample中该位点的总覆盖度,一般为 AD 所有值的和。
(4) GQ :Genotype的质量值,类似第6列的含义,不过这里是针对每个样本的计算。
(5) PL :genotype likelihoods,指定的三种基因型(0/0,0/1,1/1)的质量值(provieds the likelihoods of the given genotypes);这三种基因型的原始概率总和为1,再经过 -log10 转换。值得注意就是该值越大,表明为该种基因型的可能性越小。所以最有可能的genotype的值为0(参考下图)。
参考文档链接
1、基因组变异检测概述 http://www.360doc.com/content/18/1213/11/52645714_801492183.shtml
2、The Variant Call Format (VCF) Version 4.2 Specification https://github.com/samtools/hts-specs
3、VCF格式的学习及对VCF文件的统计 https://www.jianshu.com/p/38f734ae47f5
PS:部分图片来自网上,侵删~