基因数据格式
发布网友
发布时间:2023-01-13 19:09
我来回答
共1个回答
热心网友
时间:2023-10-07 10:21
FASTQ是储存原始测序数据的一种文本文件格式,包含核酸序列以及对应的质量值。
每个read有四行:第一行记录测序所用仪器以及read测序时所在通道坐标信息;第二行是ATGC碱基序列,缺省时用N表示;第三行+号;第四行是对应碱基的质量值。
第四行这个质量值(Phred或者Q-score),是用一个整数表示碱基的错误率,P是错误率,
在序列中Q值用ASCII字符表示. ASCII字符与对应的整数转换如下:
SAM文件全程Sequence Alignment Map,是储存生物序列比对到参考基因组的一种数据格式。
samtools view -H命令可以浏览带有@的header的信息;不带-H直接是read alignment的信息。
vcf文件是一种储存DNA多态性(SNP、插入、缺失、结构变异)的一种数据格式。
跟SAM文件类似的存储结构,也是header+body。不同软件提供的vcf文件INFO大同小异,主体都是一样:
前八列是必须项,包括染色体CHROM, 变异在染色体上的位置信息POS, 变异的标识符ID, 参考等位基因REF, 逗号分割的其他非参考等位基因ALT, 质量值QUAL, 位点过滤信息FILTER以及变异注释信息INFO。
如果有样本信息,第九列则为FORMAT,从第十列开始则是每个样本的信息。
在FORMAT中的一些关键字,INFO里有时也会有。一般header里都会存储FORMAT出现的所有缩写的解释,但也有时拿到数据时header里没有找到对应的解释,可能是由于在数据过滤的过程中没有保留所有的header信息。
以上是遇到过的一些vcf出现的关键字,也有只含有GT基因型信息的, 它以数字编译等位基因,0是ref,1是alt, 2是第二个ALT... 等位基因的数量表示该生物样本的染色体倍数,分隔符表示等位基因是否分型过phased (‘|’)或者unphased (‘/’)。根据不同分析可能依赖侧重的信息不同,就不一一列举了,有文已经解释的比较清楚,可以按需查询。
Quality (Phred) scores
NGS数据格式02-SAM/BAM最详细解读 - 知乎
variant call format and VCFtools | Bioinformatics | Oxford Academic
vcf文件与vcftools(一) -
VCF (Variant Call Format) version 4.0 | 1000 Genomes