问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

RNA-seq中的那些统计学问题(一)为什么是负二项分布?

发布网友 发布时间:2022-09-15 19:39

我来回答

1个回答

热心网友 时间:2023-10-09 22:36

在RNA-seq中进行两组间的差异分析是最正常不过的了。

我们在其它实验中同样会遇到类似的分析,通常,我们可以用方差分析判定两组“分布”数据间是否存在显著差异。原理是:当组间方差大于组内方差(误差效应),并且统计学显著时,则认为组间处理是可以引起差异的。

有伙伴肯定要问,转录组数据到底有什么了不起的?它们为什么不能用我们熟悉的算法简单地进行计算?

其实统计学家也很无奈啊,看看我们转录组实验得到的这些数据吧:我们的实验只进行少得可怜的生物学重复(n<10),而且,任何基因的表达量都不能是负数,这些数据并不符合正态分布,用于表征表达量的counts是非连续的(芯片信号是连续的),RNA-seq数据的离散通常是高度扭曲的,方差往往会大于均值……,就这些奇怪的特征,使得准确估计方差并没有想象的那么容易。

我们面临两个核心问题:

从统计学的角度出发,进行差异分析肯定会需要假设检验,通常对于分布已知的数据,运用参数检验结果的假阳性率会更低。转录组数据中,raw count值符合什么样的分布呢?

count值本质是reads的数目,是一个非零整数,而且是离散的,其分布肯定也是离散型分布。对于转录组数据,学术界常用的分布包括泊松分布 (poisson)负二项分布 (negative binomial)两种。

首先有必要简单地介绍一下泊松分布

在数据分析的早期,确实有学者采用泊松分布进行差异分析,但是发展到现在,几乎全部都是基于负二项分布了,究竟是什么因素导致了这种现象呢?为了解释这个问题,我们必须提到一个概念 overdispersion

dispersion指的是离散程度,研究一个数据分布的离散程度,我们常用方差这个指标。对于泊松分布而言,其均值和方差是相等的,但是我们的数据确不符合这样的规律。通过计算所有基因的均值和方差,可以绘制如下的图片:

横坐标为基因在所有样本中的均值,纵坐标为基因在所有样本中的方差,直线的斜率为1,代表泊松分布的均值和方差的分布。可以看到,真实数据的分布是偏离了泊松分布的,方差明显比均值要大。

如果假定总体分布为泊松分布, 根据我们的定量数据是无法估计出一个合理的参数,能够符合上图中所示分布的,这样的现象就称之为overdispersion。

由于真实数据与泊松分布之间的overdispersion,选择泊松分布分布作为总体的分布是不合理

以上只证明了泊松分布是个不太恰当的分布估计,那怎么证明负二项分布就是合适的分布估计呢?

主要是从均值与方差之间的关系去证明

同样的,也先简单介绍一下负二项分布:

负二项分布的均值和方差分别为:

将p用μ表示,得到:

将上一步推出的p和1-p带入到方差的表达式中,得到:

记 1/r=α ,则

从上面的式子可以看出,均值是方差的二次函数,方差随着均值的增加而进行二次函数形式的递增,正好符合上文 2.1. 为什么泊松分布不行? 部分均值与方差分布图的情况

其中 α 和 r 被称为dispersion parameter

负二项分布与泊松分布的关系,可以用 α 或 r 推出:

在生物学重复很少时,我们是很难准确计算每个基因表达的标准差的(相当于这个数据集的离散程度)。我们很可能会低估数据的离散程度

被*无奈的科学家提出了一个假设:表达丰度相似的基因,在总体上标准差应该也是相似的。我们把不同生物学重复中表达丰度相同的基因的总标准差取个平均值,低于这个值的都用这个值,高于这个值的就用算出来的值。

参考资料:

(1) 【生信*手册】负二项分布在差异分析中的应用

(2) 【 生信百科】转录组差异表达筛选的*

(3) 【生信媛】RNA-seq分析中的dispersion,你知道吗?

(4) H. J. Pimentel, et al. Differential analysis of RNA-Seq incorporatingquantification uncertainty. bioRxiv, 2016

欢迎关注宇宙实验媛

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
手机玻璃硬度是多少合适 ips屏幕硬度怎么样 手机硬度是什么意思? 2024年拼多多春节发货时间规定是什么?过年还要48小时发货吗? e元素e8100无线鼠标怎么使用 E元素X-8100靠谱吗?可以用几年? E元素X-8100现在有几种配色,哪一种配色好呢? E元素X-8100用的是什么色的轴,适合玩游戏吗? 浙c是哪个城市 浙c是哪里 榻榻米软包怎么安装 6.单细胞 RNA-seq:归一化和 PCA 分析 9.单细胞 RNA-seq:聚类分析 成语什么已成炊 米已成炊是什么意思 米已成炊, 这什么意思 有石头鉴定高手吗?这块石头差不多盘子大小,是江苏无锡宜兴龙背山的,最近这边流行什么阳羡玉,这石头是 宜兴阳羡玉值不值钱 QQ游戏四冲游戏中看不到比分怎么弄 粤G是哪里的车 我的手机不能滴滴打车是怎么回事? apicloud中的表白app的源码怎么修改。就是如何替换增减图片文字和音乐。求教 世界市场形成的标志是什么 企业激励员工有效的方法有哪些 农村个人土地转让协议书 曹格12岁儿子长大啦!逆袭成帅气鲜肉,梳爸爸同款油头显成熟 想问问各位网友们,相亲时女方带了母亲,你对此事怎么看?前期有说好不带任何人,双方也答应了!结果…… 金枝欲孽剧组重聚,究竟谁才是不老女神? 《你好李斯特》 劳动争议仲裁委员会的仲裁员应当回避的情形有哪些 国际医生节的中国医师节介绍: 免疫浸润分析方法 RNA-seq转录组名词解释基础 computer in education是什么意思 英语作文【电脑在我生活中的作用】 翻译,在线等,不长的。 CD,和CK香水的相关资料 武汉有mother牛仔裤专柜吗 mothercare中文什么意思 香港mother care的东西贵吗 mother&#39;s corn怎么 读 红枣是煮粥吃好还是生吃好? 红枣煮粥有营养吗? 卫生间风水禁忌有什么讲究 卫生间风水布置有哪些禁忌 什么叫什么定力的人? 给水、排水系统具体包括哪些项目? 漪不要三点水是什么字 定力强的人的特点是什么? 谈何容易的意思和造句 止损的操作原则