基于edgeR的差异分析案例实操
发布网友
发布时间:2024-10-20 03:41
我来回答
共1个回答
热心网友
时间:2024-11-16 06:51
实用科研工具推荐、详实生信软件教程分享、前沿创新组学文章解读、独家生信视频教程发布,欢迎关注微信公众号:基迪奥生物 (gene-denovo)
与DESeq2、limma等差异分析工具相似,edgeR也是一个非常受欢迎的差异分析工具。与DESeq2不同的是,edgeR的强大之处在于即使没有重复也可以使用edgeR进行差异分析。下面就以具体的案例看下如何使用edgeR进行差异分析吧。
案例一
本案例的数据与edgeR官方案例数据基本一致。来自三名口腔鳞状细胞癌患者的癌组织(oral carcinomas)和正常组织(normal tissue),两个分组,3个重复,共6个样本。其中,这里的样本名称做了调整,将数字放在字母后更符合编程语法习惯。
本案例的分析目的是检测肿瘤组织和正常组织之间的差异表达基因。为了方便大家练习使用,本文用到的范例数据已上传到OmicShare,可直接下载使用。
1.范例数据下载:
rawdata <- read.csv("case01data_filtered.csv", header = T,row.names = 1) #查看前6行; head(rawdata)
2.数据过滤与标准化
一般情况下需要过滤掉低表达的基因,但这里两个分组的总counts数都大于50,不做过滤,具体过滤方法可参考下期文章的案例2。
3.数据探索
Multidimensional scaling plot中,样本之间的距离对应于这些样品之间主要生物变异系数(biological coefficient of variation,BCV)。从横轴方向(dimension 1)来看,tumor和normal样本可以清楚分开,而在纵轴方向上,样本的编号(patient number)也是基本一致的。这可以证实具有配对样本特性,且肿瘤组织比正常组织有更高的异质性。
4.生成试验设计矩阵
在进行negative binomial GLMs拟合之前,需要先指定实验设计方案。这里,我们主要想在肿瘤组织和正常组织之间进行差异分析,并加上了患者之间的差异因子进行调整。在统计学中术语,这是一个以patient为blocking factor的加性线性模型。
5.估计离散系数(dispersion)
对common dispersion求平方根即为生物变异的变异系数;这里common dispersion为0.159,因此,生物变异系数(coefficient of biological variation)为sqrt(0.159),约0.4左右。
6.差异分析
TipsOmicShare云平台全新推出的配对edgeR/DESeq2差异分析工具和edgeR/DESeq2差异分析工具上线啦,大家可以前往使用~
配对edgeR/DESeq2差异分析:
edgeR/DESeq2差异分析:
本次内容就先到这里啦,下期在微信文章中将继续介绍基于edgeR的差异分析案例实操的案例2,研究拟南芥接种丁香假单胞菌ΔhrcC突变体后产生的反应,感兴趣的老师们不要可以先关注基迪奥生物 公众号,抢先观看哦!