问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

VCF文件参数解读

发布网友 发布时间:2022-10-11 06:40

我来回答

1个回答

热心网友 时间:2023-10-12 00:59

    VCF文件的开头是整体注释信息,通常以##作为起始,其后一般接以FILTER,INFO,FORMAT等字样。

    例如:以##FILTER开头的行,表示注释VCF文件当中第7列中缩写词的说明;##INFO开头的行注释VCF第8列中的缩写字母说明,比如AF代表Allele Frequency也就是等位基因频率;##FORMAT开头的行注释VCF第9列中的缩写字母说明;另外还有其他的一些信息,文件版本"fileformat=VCFv4.0"等等。还能看到一些历史命令,通过这些命令可以知道这个vcf文件是如何得到的。

    各列之间用tab空白隔开;前面9列为固定列,第10列开始为样品信息列,可以无限多个;图示样品信息列有130个

    CHROM    POS    ID    REF    ALT    QUAL    FILTER    INFO    FORMAT

    后面的列都为样品基因型信息列

     1.CHROM     记录染色体编号

     2.POS    记录变异位点在参考基因组中的位置。如果是SNP的话,POS即SNP的位置;如果是INDEL的话,位置是INDEL的第一个碱基位置。

     3.ID     SNP/INDEL的ID, 如在dbSNP中有该SNP的id,则会在此行给出;若没有,则用’.'表示其为一个novel variant 新变异,dbSNP编号通常以rs开头,一般只有人类基因组才有dbSNP编号

     INDEL 指的是在基因组的某个位置上所发生的small deletion,small inverion小片段序列的插入或者删除,其长度通常在50bp以下

     4.REF     参考基因组该位置碱基类型,必须是A,C,G,T,N    N表示不确定碱基,SNP应该一个位点就是一个碱基

     5.ALT     与参考序列比较,发生突变的变异碱基类型,必须是A,C,G,T,N,.    多个用逗号分割。"." 表示这个地方没有reads覆盖为缺失。

     6.QUAL      变异位点检测质量值,越高越可靠。表示在该位点存在variant的可能性,该值越高,则variant的可能性越大 

        等于-10*log10(该变异位点检测错误的概率)。 用 . 表示,是质量值没有输出,不代表质量值为0

           log0.1表示10的多少次方等于0.1,即为-1;10的-1次方为十分之一,10的-2次方为一百分之一

     7.FILTER     如果该位点通过过滤标准那么我们可以在该列标记为"PASS",说明该列质量值高。

     8.  INFO为variant的详细信息     字段的意思可以在header里搜索去看

     上面vcf 中INFO全为“.”了,是因为用 vcftools 某步过滤SNP输出文件时用了 --recode ,这样就不输出info信息,以 . 代替了,想输出info,可以--recode-INFO xx(如MQ)  或者 --recode-INFO-all (所有info全部输出)

    #DP-read depth:样本在这个位置的reads覆盖度。是一些reads被过滤掉后的覆盖度。DP4:高质量测序碱基,位于REF或者ALT前后

    #QD:通过深度来评估一个变异的可信度。Variant call confidence normalized by depth of sample reads supporting a variant       

    #MQ:表示覆盖序列质量的均方值RMS Mapping Quality

    #FQ:phred值关于所有样本相似的可能性

     #AC,AF 和 AN:AC(Allele Count) 表示该Allele的数目;AF(Allele Frequency) 表示Allele的频率; AN(Allele Number) 表示Allele的总数目。

     对于1个diploid sample(双倍体)而言:则基因型 0/1 表示sample为杂合子,Allele数为1 (双倍体的sample在该位点只有1个等位基因发生了突变),Allele的频率为0.5 (双倍体的sample在该位点只有50%的等位基因发生了突变),总的Allele为2;                                                                    基因型 1/1 则表示sample为纯合的,Allele数为2,Allele的频率为1,总的Allele为2。

    #MLEAC:Maximum likelihood expectation (MLE) for the allele counts (not necessarily the same as the AC), for each ALT allele, in the same order as listed

    #MLEAF:Maximum likelihood expectation (MLE) for the allele frequency (not necessarily the same as the AF), for each ALT allele, in the same order as listed

    #BaseQRankSum  比较支持变异的碱基和支持参考基因组的碱基的质量,负值表示支持变异的碱基质量值不及支持参考基因组的,

     正值则相反,支持变异的质量值好于参考基因组的。0表示两者无明显差异。

    #FS  使用F检验来检验测序是否存在链偏好性。链偏好性可能会导致变异等位基因检测出现错误。输出值Phred-scaled p-value,值越大越可能出现链偏好性。

    #InbreedingCoeff    使用似然法检验样本间的近交系数(又或者称为近亲关系)。值越高越可能是近亲繁殖。

    #MQRankSum  比较支持变异的序列和支持参考基因组的序列的质量,负值表示支持变异的碱基质量值不及支持参考基因组的,只针对杂合。

     正值则相反,支持变异的质量值好于参考基因组的。0表示两者无明显差异。实际应用中一般过滤掉较小的负值。

    #BaseCounts  所有样本在变异位点ATCG的数量

    #ClippingRankSum  同前面两个类似,负值表示支持变异的read有更的的hard-clip碱基,正值表示支持参考基因组的的read有更多的hard-clip。0最好,无论是正值还是负值都表示可能可能存在人为偏差。

    #ReadPosRankSum    检测变异位点是否有位置偏好性(是否存在于序列末端,此时往往容易出错)。最佳值为0,表示变异与其在序列上的位置无关。负值表示变异位点更容易在末端出现,正值表示参考基因组中的等位基因更容易在末端出现。

    #ExcessHet  检测这些样本的相关性,与InbreedingCoeff相似,值越大越可能是错误。

    #LikelihoodRankSum  评价支持变异和ref的序列与best hyplotype的匹配性,0为最佳值。负值表示支持变异的read匹配度不及支持ref的匹配度,正值则相反。值越大表示越可能是出现了错误。

    #HaplotypeScore    分数越高越可能出现错误。Higher scores are indicative of regions with bad alignments, typically leading to artifactual SNP and indel calls.

    #SOR:也是一个用来评估是否存在链偏向性的参数,相当于FS的升级版。The StrandOddsRatio annotation is one of several methods that aims to evaluate whether there is strand bias in the data. It is an updated form of the Fisher Strand Test that is better at taking into account large amounts of data in high coverage situations. It is used to determine if there is strand bias between forward and reverse strands for the reference or alternate allele. The reported value is ln-scaled.

    #IS:插入缺失或部分插入缺失的reads允许的最大数量

    #G3:ML 评估基因型出现的频率

    #HWE:chi^2基于HWE的测试p值和G3

    #CLR:在受到或者不受*的情况下基因型出现可能性log值

    #UGT:最可能不受*的三种基因型结构

    #CGT:最可能受*三种基因型的结构

    #PV4:四种P值的误差,分别是(strand、baseQ、mapQ、tail distance bias)

    #INDEL:表示该位置的变异是插入缺失

    #PC2:非参考等位基因的phred(变异的可能性)值在两个分组中大小不同

    #PCHI2:后加权chi^2,根据p值来测试两组样本之间的联系

    #QCHI2:Phred scaled PCHI2

    #PR:置换产生的一个较小的PCHI2

    #QBD:Quality by Depth,测序深度对质量的影响

    #RPB:序列的误差位置(Read Position Bias)

    #MDV:样本中高质量非参考序列的最大数目

    #VDB:Variant Distance Bias,RNA序列中过滤人工拼接序列的变异误差范围

     9.FORMAT 为后面10列信息的说明列,通常以" :"隔开各个缩写词。

     10 列(包含)以后 为样品基因型列,各信息以":"分隔与FORMAT列一一对应;

(不确定 1/0与0/1 , 1/2与2/1 , 2/3与3/2 是否为一个意思,猜测可能是一个意思,没有去深究)

    在过滤后只剩SNP的vcf文件中,GT只会存在 0/0    0/1      1/1       0(参考基因组等位基因类型)和1(样品的一种变异等位基因类型)

     像下图,还存在除SNP外其他类型的变异,所以GT存在1/2,2/2等

     AD 和DP: AD(Allele Depth)为sample中在此位置支持每种碱基型的reads深度,用逗号分割,前者对应ref基因型,后者对应variant基因型; DP(Depth)为sample中该位点的覆盖度,为该变异位点的深度和,也就是AD两个数字的和。

     GQ : 基因型质量值        Phred值 = -10 * log (p)  p为基因型错误的概率  越高越可靠

     PL : 指定的三种基因型的似然值。这三种指定的基因型为(0/0,0/1,1/1),这三种基因型的概率总和为1。数值越小代表基因型越可靠,最小的数字对应的基因型判读为该样品的最可能的基因型。比如最后一列285,0,105,分别对应基因型0/0,0/1,1/1,说明0/1为可能的基因型。

     PGT   PID  也看了,没咋懂,不记录了

参考:

https://www.jianshu.com/p/1726696e54e5

https://www.jianshu.com/p/13f162636164

https://www.omicsclass.com/article/847

https://www.jianshu.com/p/bf0d27368eb9

https://www.jianshu.com/p/13f162636164
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
红薯干空气炸锅多长时间 用空气炸锅做红薯干好吃么 51. com个人空间登录? 女主人公叫眉姐,烦问一下这电视局的名字是什么 小男人和大女人,电视剧,挺不错的 浙江理工大学收美术生吗?分数线多少? 我是浙江美术生,请问杭州理工服装设计与东华大学哪个好考? 浙江2024美术生能上的大学有哪些 浙江理工大学什么艺术 ...每次到了晚上或者某种特定时间就会想起他,还会哭,该怎样排解。删除他... 和“我们之间记忆的点点滴滴我永远也忘不了,你给我的快乐谁也不能够代替... 机动车事故车损较重双方协商由入全险的一方负全责协议书怎么写 剩饭遇到下雨天又要晒干怎么处理 蔡徐坤黑白侧颜杀镜面写真释出,“禁欲风”照片的氛围感怎么样? 繁体字壮元极第怎么写 老师给看看是什么字 卫衣面料是什么面料 卫衣面料是啥面料 福是怎么写 “福”字的篆体写法 “福”字的各种篆体书法欣赏 离职后更换公司该怎么去缴纳社保?找工作期间,社保断缴会带来什么影响? 清朝。状元及第 在古代,状元及第可以写成状元及弟吗,第和弟通假吗? 社保经常换单位交会有影响吗?- 问一问 小镇惊魂2老虎挡道怎么过 公司中途换了第三方社保缴纳有影响吗 樱、至、蚕、日。皿、沁 按笔画从少到多排列是 怎么看我的iphone是哪国版、有锁无锁、是不是翻新机? 头发少剪短发的话会不会很丑? 求大神帮我查下这个手机是否为翻新 有锁 无锁 红花放冰箱冷藏可以吗 红花能放冰箱冷藏吗 四物汤的功效与作用及食用方法 四物汤的功效与作用及食用方法简述 梅雨季节养生注意事项 如何解读政策文件 《偶像练习生》四周年了,练习生们为什么只有蔡徐坤成了顶流小生? 杭州女子家里长出暗黑系蘑菇,比黄梅天还潮,南方的“倒黄梅”天气有多潮? 250用英语怎么说? 合作市藏族小学教育集团总校2021学年度寒假社会实践活动调查记录表咋写 门拉手的选购技巧及安装方法 系统窗五金把手品牌有哪些 大门拉手如何选购 250用英语怎么说?O(∩_∩)O谢谢 电脑系统chst和windows是什么意思 chst,insurance and fright怎么读 250这个数用英语怎么说 25 78 250 199 911 123 678用英语怎么写 250怎么说呢 什么颜色衣服显白女 显白的衣服颜色有哪些 菊花茶哪个品种好 菊花茶的菊花是什么?贡菊花,金菊花,金银花都有什么区别?这些是菊花茶吗? 穿什么颜色显白 显白的衣服颜色 2022重庆300分的专科学校 300分能上什么学校 植物大战僵尸ol暗鬼王