发布网友 发布时间:2023-05-17 06:55
共1个回答
热心网友 时间:2023-05-21 10:43
通常,在计算TPM或RPKM/FPKM等基因表达量时,除了基因的counts信息外,我们还需要知道基因的长度。这里所用到的基因长度并不是某个基因在基因组上的完整长度。在基因表达分析中,“基因长度”通常指的是成熟转录本的长度,也就是无内含子的碱基序列。因此,单纯地使用基因的染色体起始和结束坐标相减并不能返回转录本的长度信息。目前,对于基因长度有多种定义,包括:
1. 基因最长转录本;
2. 多个转录本长度的平均值;
3. 非重叠外显子长度之和
4. 非重叠CDS序列长度之和
本文介绍使用 gtf 文件在R中获取基因长度( 非重叠外显子长度之和 )的方法
Figure Source : Gene structure
在真核生物,一个基因的DNA序列主要可以分为*元件和编码序列,而编码序列又可以进一步分为外显子(Exon)和内含子(Intron)序列。经过剪接后,成熟的mRNA一般不包含内含子序列。所以,在统计基因长度时,也只考虑外显子的长度。由于可变剪接的存在,一个基因可能会有多个转录本,在进行基因水平的表达分析时,我们并不会区分各个转录本剪接变体的表达量,而是以基因为单位进行统计。因此,通过合并重叠外显子的区域来获得每个基因的非重叠外显子长度是一种基因长度估算的方法。
Figure Source : Schematic of non-overlapping exons
在使用 featureCounts 统计基因counts时,其输出的counts.txt文件中通常会包含一列长度信息 Length
我们可以比较一下使用相同注释文件时,两个程序计算的基因长度是否一致。
查看基因 ENSMUSG00000000001.4 :
可以发现 featureCoutns 输出的基因长度与我们计算的一致,这是由于 featureCounts 也是采用非重叠外显子作为基因长度。
以上就是在R中获取基因长度的方法。
完。