GWAS基因型文件介绍——VCF文件
发布网友
发布时间:2024-10-05 12:01
我来回答
共1个回答
热心网友
时间:2024-12-03 20:12
大家好,上一期我们探讨了GWAS的基本原理,并提到了基因型数据的重要性。基因型数据的获取方式包括基因芯片、简化基因组测序和全基因组重测序等。获取的测序数据通常需要参考千人基因组等数据来填补,以实现全基因组覆盖性的位点密度。承载基因型数据的文件格式多样,常见的有vcf、ped/map、bed/bim/fam、hapmap、bgen等。不同的GWAS分析软件往往需要不同的格式,因此在GWAS研究中使用单一格式的情况较为罕见。转换不同格式通常需要使用plink、plink2、TASSEL等软件,接下来我将为大家介绍vcf格式。
vcf(Variant Calling Format)格式中,以##开头的行是表头,记录了文件的基本信息及操作历史。#开头的行是列名,其中前9列的列名是通用的。CHROM代表染色体,POS表示染色体上的物理位置,ID是snp的名,在人类中若参考基因组是37版本,则为rsid。REF和ALT分别代表参考和替代,QUAL表示变异位点的可靠性,FILTER表示变异位点是否合格,可以是PASS或FAIL,INFO用于存储附加信息,如变异类型、覆盖深度、突变频率等。FORMAT相对复杂,不同的参数代表不同的意思,可以同时出现,中间以“:”分隔,代表了后面每个样本的数据格式,包括:
GT:基因型,表示该样本的两个等位基因(allele)分别是哪两个碱基,如A/T
DP:测序深度,表示该样本在该位点的测序覆盖深度,如DP = 20
AD:每种等位基因的测序深度,例如 AD:10,20 表示第一个等位基因测序10次、第二个等位基因测序20次
AF:突变频率,表示该样本中突变等位基因的频率
GQ:基因质量,表示该基因型的可靠程度
越过前9列后面是样本名,在做GWAS时与表型数据的样本名一一对应。
vcf文件没有行名,每一行代表一个变异位点。
以上是vcf格式的介绍,下一期我们将继续介绍GWAS基因型文件的其他格式,感谢大家的支持。