问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

03高通量测序-PCA中的主要概念

发布网友 发布时间:2022-09-23 04:28

我来回答

1个回答

热心网友 时间:2023-07-19 23:24

我们使用SVD(singular value decomposition,中文译名“奇异值分解”)的方法来计算PCA。我们先看一个简单的案例,在这个案例中,我们检测了6只不同小鼠的2个基因。其实我们可以把它再抽象化一下,把小鼠看成样本,基因看成2个变量。如果我们只检测1个基因的话(Gene 1),那么我们根据基因1表达的情况,把小鼠的绘制到数轴上,小鼠1,小鼠2,小鼠3的Gene 1表达水平比较高,而小鼠4,小鼠5,小鼠6的Gene 1水平则较低。虽然这个图形比较简单,但是,我们从中还是能得到一些信息的,例如小鼠1,小鼠2和小鼠3比较接近,小鼠4,小鼠5和小鼠6比较接近。

如果我们检测了2个基因,那么我们可以绘制一个二维坐标系,横轴是Gene 1,纵轴是Gene 2,那么小鼠1,小鼠2和小鼠3会聚在一起,小鼠4,小鼠5和小鼠6会聚在一起。

如果我们检测了3个基因,那么我们可以绘制三维的坐标系,在上图的这个3维坐系中,圆点越大,表示离你越近。如下所示:

再进一步,如果我们检测了4个基因,此时我们很难绘制出四维的坐标系,那么我们就需要进行PCA分析了,PCA可以把超过4个的基因降维成二维的坐标系,在这个PCA的二维坐标系中,我们可以发现,小鼠4、小鼠5和小鼠6是一类,小鼠1,小鼠2和小鼠3是一类,它们的各自的基因表达模式也类似,PCA在对数据进行聚类(clustering)时有很大的价值,例如,经过PCA分析,在它的二维坐标轴上我们可以发现,Gene 3在x轴上对样本的区分有贡献最大

我们还回最初2个基因的案例上来:

此时,我们可能有疑问,为什么这条直线是最匹配数据的,它的计算原理是什么,那么接着看。我们先回到最初的直线,为了准确地找出最佳匹配所有数据的直线,PCA会将所有数据点都映射到这条直线上来,此时,可以计算这些数据点到投射到这条直线上的距离,并且使这些距离最小,除了可以计算数据点到直线的距离最小外,还要计算所有数据点投射到这条直线上的点(图中绿叉位置所在点)到原点的距离,使这个距离最大。

通过勾股定理,我们可以知道,因为a不变,当数据点到直线的距离最短时(b),投影点到原点的距离最大(c)

我们计算投影点到原点的距离,我们把它我们把它命名为d1,d2......计算剩余的投影点到原点的距离。然后把这些值的平方加起来称为SS(distances)。我们旋转直线,直到SS的值最大,此时数据点到直线的距离最短。这条直线就叫第一主成分(Principal Component 1,简称PC1)。

对于PC1,斜率为0.25。也就是说基因1增加4个单位,基因2增加1个单位。计算出红色箭头的长度为4.12。

当你用SVD(singular value decomposition,奇异值分解)进行PCA时,红色箭头的长度=1,我们所要做的就是把这个三角形缩小到红箭头是1个单位时,只需每边除以4.12。

三个边长分别变成了1,0.242,0.97,但,Gene1/Gene2仍然等于4。此时我们可以说PC1由0.97的Gene1和0.242的Gene2构成。

我们回顾一下计算过程:

这个单位向量由基因1的0.97和基因2的0.242部分组成,称为PC1的“奇异向量”(Singular Vector)或“特征向量”(Eigenvector),每个基因的比例则被称为载荷得分(Loading Scores)。原始数据的投影点到原点的距离的平方SS被称为PC1的特征值(Eigenvalue)。PC1的特征值的平方根叫做PC1的奇异值(Singular value)

因为是一个二维图,PC2只是一条垂直于PC1的穿过原点的直线,没有任何进一步的优化要做。由于PC2与PC1垂直,所以斜率为-4,也就是说PC2由-1份Gene1和4份Gene2组成。如果我们对所有东西进行缩放,得到一个单位向量,PC2由-0.242个Gene 1和0.97个Gene 2构成,称为PC2的“奇异向量”(Singular Vector)或“特征向量”(Eigenvector)。每个基因的比例则被称为载荷得分(Loading Scores),告诉我们,就基因值如何投射到PC2上而言,Gene2的重要性是Gene1的4倍

最后,PC2的特征值是投影点到原点的距离的平方和。

此时,PC1和PC2的计算结束,绘制最终的PCA图,如下所示:

然后旋转这个坐标,让PC1水平,PC2垂直,如下所示:

在这个新的坐标系中,图中黑色的叉就表示原始的样本6(Sample 6),如下所示:

而Sample 6位于这个点上:

同理,Sample 2在这里:

我们可以将特征值转化为PC1到原点的变异,通过除以样本大小减1:n-1。这个例子,假设PC1的变异为15,PC2的变异为3。这意味着PCs的变化是15 +3= 18。PC1占了PCs变异的15 / 18= 0.83 = 83%。PC2占了3/18= 0.17= 17%的PCs变异。

碎石图(scree plot)是用图形表示每个PC所占的变异百分比。

PCA有3个变量(在这种情况下,3个基因)几乎等同于2个变量

然后找到经过原点的最佳拟合直线,和之前一样,最佳拟合线是PC1。PC1现在有三种成分:0.62的Gene1、0.15的Gene2和 0.77的Gene3,Gene3 是最主要的组成部分。然后求出PC2,它经过原点并垂直于PC1。PC2现在有三种成分:0.77的Gene1、0.62的Gene2和 0.15的Gene3,Gene1 是最主要的组成部分。然后,我们找到了PC3,这条最合适的直线,它通过原点并垂直于PC1和PC2。如果我们有更多的基因,我们就会通过添加垂线和旋转它们来不断寻找越来越多的主成分,理论上,每个基因(或变量)都有一个。但在实际操作中,PC的数量不是变量的数量或者样本的数量,取其中较小的一个。一旦你找出了所有的主成分,你可以使用特征值(即SS(距离))来确定每个PC的变化比例。在这个例子中,PC1=79%,PC2=15%,PC3=6% ,PC1和PC2占了变异的绝大比例。这就表明了,在二维图中,我们基本上只使用PC1和PC2就能解释三维图中的数据,因为二维图中的PC1和PC2占据了整体的变异的94%,

为了将3-D图像转换成2-D的PCA图像,我们去掉了所有除了数据和PC1、PC2。将数据投影到PC1和PC2上,然后旋转坐标轴,这是我们新的PCA图中的样本4。

最后,我们使用PC1和PC2将数据绘制成二维图形。

如果我们测量每只老鼠的4个基因,我们不可能画出一个四维图数据,但这并不妨碍我们进行PCA计算,并查看碎石图。在这种情况下,我们可以计算主成分,发现PC1和PC2占变异的90%,所以我们可以使用它们来绘制二维PCA图。

注意:如果碎石图中PC3和PC4占据了大量的变化,那么仅仅使用前2个PCs并不能创建一个非常准确的数据表示。然而,即使像这样一个PCA图也可以用来识别数据分类。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
酸醋萝卜怎么做又脆又好吃 账簿启用及交接表填写的步骤 账簿启用及交接表怎样填写 说的是精神分裂症,吃了二年多的药,分别是利培酮片,苯海索片,补脑_百度... 精神分裂症急性期适当的治疗方法 快递三斤荔枝的话要多少钱? 求高手指点一个plc编程问题,计算时间差,还有时间比较后,输出执行... 你好高手 我现在买了个松下fp0的PLC我想写一个步进程序,请问能否... 【plc执行程序步骤】 plc执行程序时 若有一步不能满足条件而执行不了... 电脑屏幕的壁纸怎么更换? 医院里的辰和 PCA-100C镇痛泵?是怎么工作的?多少钱? 我有一个小型纱窗加工厂,想在网上开个店,招览更多的客户,可行吗?_百度... (谈论天文)造句 货车有自动挡吗,为什么? 有一首歌的歌词是: 寻寻觅觅找不到活着的感觉 这是什么歌?大家... 有你的身影 寻寻觅觅寻不到 是什么歌 星星点灯歌曲里面,寻寻觅觅寻不到活着的证据,后面一句是什么? 寻寻觅觅寻不到活着的证据是哪首歌的歌词 3.85货车有自动挡的吗 黄瓜的做法,刀拍黄瓜怎么做好吃,刀拍黄瓜的家常做法 用若……若……若……造句 做苦瓜炒鸡蛋的时候,如何处理苦瓜处理才能不苦呢? 脖子上长出的小肉粒是什么?有什么危害?如果抠了有什么影响? 有热毒脖子上长了好多痘痘怎么办 在手机怎么设置QQ群怎么让人们发消息显示自己的头衔 大货车有自动挡吗 中行怎么在电脑上给苹果手机充值 中国银行在电脑上怎么往苹果手机冲钱 梦见自己脚底被刺扎 流粉红色的血 脚底留下大洞 新版优酷客户端如何删除游戏中心 PCA的8位pwm无中断模式(CCAPM0=0x42)是什么意思? 上海当纳利印刷有限公司的总机号码是多少? 青浦-印刷厂有哪些,电话多少, 请问上海南桥有没有比较专业的打印的店? 有自动挡的大货车吗 在上海市那几家印刷公司比较好啊,我想印刷写宣传册 华为路由器更改密码时,提示无线网络参数设置错误是怎么回事?_百度... 为什么手机设置wifi时说无线网络参数设置错误? 关于小壁虎的诗句 仙侠奇侠传2中的王小虎 苏媚还有沈欺霜他们三个人像不像倚天屠龙记中... 那个老人经常在公园里下中国象棋牌室 用英语怎么翻译 怎样进入人对人象棋牌室 在乐清市北白象可以办理棋牌室吗 中国近代衰落的原因,,文化方面 为什么中国不多弄几个象苏州工业园区的开发区 去新西兰旅游带什么 去新西兰旅游物品 新西兰旅游需要带什么 南通场所二维码内容怎么删除 不上征信的网贷有哪些 有哪些网贷是不会上征信的