问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

6.单细胞 RNA-seq:归一化和 PCA 分析

发布网友 发布时间:2022-09-15 19:39

我来回答

1个回答

热心网友 时间:2023-10-09 22:36

在获得我们的高质量单细胞后,单细胞 RNA-seq (scRNA-seq) 分析工作流程的下一步是执行聚类。聚类的目标是将不同的细胞类型分成独特的细胞簇。为了进行聚类,我们确定了细胞之间表达差异最大的基因。然后,我们使用这些基因来确定哪些相关基因集是造成对细胞间的表达差异最大的原因。

在进行聚类之前,先需要理解几个概念。

第一个是count normalization,这对于准确比较细胞(或样本)之间的基因表达是至关重要的。每个基因的RNA表达,通过mapped reads 这一有意义的数值来反映,但是这一数值还会受到许多其他无意义的因素干扰。Normalization就是缩放原始计数以解决“无意义”因素的过程。这样,表达水平在细胞之间和/或细胞内更加具有可比性。

归一化过程中经常考虑的主要因素是:

scRNA-seq中的每个细胞都将具有与之相关的不同数量的reads。因此,要准确比较细胞之间的表达,有必要对测序深度进行标准化。

在 scRNA-seq 分析中,我们将比较细胞内不同基因的表达以对细胞进行聚类。 如果使用基于 3' 或 5' 液滴的方法,基因的长度不会影响分析,因为仅对转录物的 5' 或 3' 末端进行测序。 但是,如果使用全长测序,则应考虑转录本长度。

主成分分析(PCA)是一种既强调相似性又强调变异的技术,用来在数据集中产生强模式(降维)。我们将在简要介绍PCA(改编自StatQuests/Josh Starmer的*视频),强烈建议您浏览*的 StatQuest 视频,有更全面的讲解。

假设您已经量化了两个样本(或细胞)中四种基因的表达,您可以绘制这些基因的表达值,其中一个样本表示在 x 轴上,另一个样本表示在 y 轴上,如下所示:

在表示最大变化的方向上通过数据绘制一条线,在本例中,该方向位于对角线上。数据集中的最大变异发生在构成这条线的两个端点的基因之间。

我们能看到基因在该线的上方和下方有些不同。同时我们可以在数据上绘制另一条线,表示数据中变化第二大的量,因为该图是二维(2轴)的。

每条线末端附近的基因将是那些变异最高的基因;这些基因在数学上对线条的方向影响最大

例如, 基因 C 值的微小变化会极大地改变较长线的方向,而 基因 A 或 基因 D 的微小变化对线条方向影响很小。

我们还可以旋转整个曲线图,并以从左到右、向上和向下的方式查看表示变化的线条。我们看到数据中的大部分变化是从左到右的(较长的线),第二大的变化是向上和向下的(较短的线)。现在,您可以将这些线视为表示变化的轴。这些轴本质上是“主成分”,其中PC1代表数据中最大的变化,而PC2代表数据中第二大变化。

如果我们有三个样本/细胞,那么我们就会有一个额外的方向可以发生变化(3D)。因此,如果我们有 N 个样本/细胞,我们就会有 N 个变化方向或 N 个主成分(PC)!一旦计算出这些PC,处理数据集中最大变化的PC被指定为PC1,第二PC被指定为PC2,依此类推。

一旦为数据集确定了PC,我们就必须弄清楚每个样本/细胞是如何重新适应坐标系的,这样我们才能以直观的方式可视化相似性/差异性之处。这里的问题是“基于Sample_X中的基因表达,给定PC的Sample_X得分是多少?”按照以下步骤对所有样本计算PC对分数:

(1)首先,根据每个基因对每个PC的影响程度,给每个基因分配一个“影响力”分数。对给定PC没有任何影响的基因得分接近于零,而影响更大的基因得分更高。PC线末端的基因会有更大的影响,所以他们会得到更高的分数,但有相反的符号。
计算所有样本-PC 对的 PC 分数,如下面的步骤和示意图中所述:

(2)确定了影响值,每个样本的分数将使用以下公式计算:

对于我们的 2 个样本示例,以下是分数的计算方式:

这是前两个步骤的示意图:

(3) 一旦计算出所有 PC 的分数,就可以将它们绘制在一个简单的散点图上。下面是示例的绘图,从 2D 矩阵到 2D 绘图:

假设您正在处理 12,000 个细胞 的单细胞 RNA-seq 数据集,并且您已经量化了 20,000 个基因的表达 。

计算 PC 分数后,您会看到一个 12,000 x 12,000 的矩阵,该矩阵表示有关所有细胞中相对基因表达的信息。您可以选择 PC1 和 PC2 列并以二维方式绘制它们。

您还可以使用前 40 个 PC 的 PC 分数进行下游分析,如聚类、标记识别等,因为这些代表了数据中的大部分变化。我们将在后面对此进行更多讨论。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
什么样的胶水能粘铝水箱上 什么是破产犯罪 现行刑法对故意销毁会计账簿罪立案是怎么规定的 如果很讨厌一个人,要怎么发泄 讨厌一个人,要怎么礼貌的告诉他?如题 谢谢了 耿直的人,为什么适合质检部? 黄易群侠传副本任务分别在那领 cad图层怎么用(autocad图层怎么用) AUTOCAD中的图层有什么作用,怎样使用啊! AutoCAD怎样使用图层? 9.单细胞 RNA-seq:聚类分析 成语什么已成炊 米已成炊是什么意思 米已成炊, 这什么意思 有石头鉴定高手吗?这块石头差不多盘子大小,是江苏无锡宜兴龙背山的,最近这边流行什么阳羡玉,这石头是 宜兴阳羡玉值不值钱 QQ游戏四冲游戏中看不到比分怎么弄 粤G是哪里的车 我的手机不能滴滴打车是怎么回事? apicloud中的表白app的源码怎么修改。就是如何替换增减图片文字和音乐。求教 世界市场形成的标志是什么 企业激励员工有效的方法有哪些 农村个人土地转让协议书 曹格12岁儿子长大啦!逆袭成帅气鲜肉,梳爸爸同款油头显成熟 想问问各位网友们,相亲时女方带了母亲,你对此事怎么看?前期有说好不带任何人,双方也答应了!结果…… 金枝欲孽剧组重聚,究竟谁才是不老女神? 《你好李斯特》 劳动争议仲裁委员会的仲裁员应当回避的情形有哪些 国际医生节的中国医师节介绍: 跪求一篇.我喜欢紫罗兰.的英语作文,加翻译! RNA-seq中的那些统计学问题(一)为什么是负二项分布? 免疫浸润分析方法 RNA-seq转录组名词解释基础 computer in education是什么意思 英语作文【电脑在我生活中的作用】 翻译,在线等,不长的。 CD,和CK香水的相关资料 武汉有mother牛仔裤专柜吗 mothercare中文什么意思 香港mother care的东西贵吗 mother's corn怎么 读 红枣是煮粥吃好还是生吃好? 红枣煮粥有营养吗? 卫生间风水禁忌有什么讲究 卫生间风水布置有哪些禁忌 什么叫什么定力的人? 给水、排水系统具体包括哪些项目? 漪不要三点水是什么字 定力强的人的特点是什么? 谈何容易的意思和造句