基因组常见文件格式
发布网友
发布时间:2022-12-27 11:25
我来回答
共1个回答
热心网友
时间:2023-10-19 21:11
[toc]
官方文档:
https://samtools.github.io/hts-specs/VCFv4.2.pdf
仍然不太适应看长篇的英文文档,看了后面忘了前面,看多了头晕。
中文参考:
VCF (Variant Call Format)格式详解
但是官方文档是解释的最权威、最全面的,英文水平要培养起来,不要畏惧,养成读官方文档习惯,提炼要点。仅看网上教程是不可能面面俱到的,何况大部分教程都是没有经过实验,仅仅复制粘贴别人的。很多细节只有自己实践时发现,举个例子:
原始vcf文件如下:
包含SNP和Indel,应用时需要将SNP/Indel提取出来:
snp.vcf 文件中还有一些不常见的东西:
我们如果要进行文件格式转换,这里就需要注意了。一般只有一个位点,这里却有多个位点,后面的编码除了0,1组合,还有2。此外, 0/1 和 0|1 又有什么区别?比如你想把vcf文件转化为hapmap格式,尤其是自己写脚本时,你可以看看tassel之类的软件是怎么处理的。
关于基因型定相和非定相,贴几个biostars上的问题:
待补充