问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

协方差与相关系数

发布网友 发布时间:2022-09-15 12:18

我来回答

1个回答

热心网友 时间:2023-10-09 03:09

如下,在测量5个肝细胞gene x 转录本表达情况的基础上,同时也测量这5个肝细胞gene y转录本表达量。对来自同一细胞(sample)的两个数据进行配对,利用其在X轴(green)和Y轴(red)上的数据在二维平面组成一个新的点(蓝色的点)并用直线对其进行拟合。
1)如果斜率为正,gene x与gene y在细胞中表达成正相关。gene x表达水平随gene Y表达水平的增加而增加。利用拟合的直线,可以根据gene x的表达量预测gene y表达水平,也可以基于gene y的表达量预测gene x的表达水平。

2)如果斜率为负,Gene x与gene y的表达呈现负相关趋势。较低的gene x表达水平对应较高的gene y表达水平,较高的gene x水平对应较低的gene y表达水平。

注意!!!协方差本身并不容易被阐释,它不能告诉我们相关性直线的斜率(陡峭或平坦),也不能告诉我们样本是否靠近相关性直线,它仅仅告诉我们两变量之间的相关性直线的斜率是正还是负。

「协方差对数据的scale敏感,使其不能揭示数据间的相关性程度。」

协方差值并不能告诉我们关系强弱,只能告诉我们是正/负相关。

协方差值的具体大小没有意义

协方差值对数据的波动(方差)较为敏感

当数据波动变大后,数据的协方差也会变大,但是我们想用一个不会受数据波动影响的系数来反映数据之间的相关性。那么最简单的办法就是把这个波动给去除掉就好,我们可以通过除以数据的SD(波动程度值)来去除,这样就得到了我们的pearson相关系数的计算公式:

为什么要除以SD:假设有一组数据
X1:1,2,3,4,5
Y1:1,2,3,4,5
根据协方差公式,可以计算出两个变量的协方差为2,SD分别为√2,√2
根据pearson相关系数的计算公式:相关系数为1
现在将X1,Y1同时扩大2倍
X1:2,4,6,8,10
Y1:2,4,6,8,10
根据协方差公式,可以计算出两个变量的协方差为8,SD分别为2√2,2√2
根据pearson相关系数的计算公式:相关系数为1
可以看出,当数据扩大2倍的是时候,协方差与标准差都发生了变化,但相关系数并没有发生改变。

「(左图)强相关」:如果基于gene x的表达量能够无偏差地预测gene y的表达量,说明二者之间有很强的联系;

「(右图)弱相关」:如果基于gene x的表达量不能较准确地预测gene y的表达量,说明二者之间仅有较弱的联系。
以上涉及的是直线相关,相关系数的取值为【-1,1】:
散点完全在同一条直线上,预测的准确性最高,相关系数的正负号表示相关性的正负。若x与y是同向变化,相关系数等于1,为完全正相关;若x与y是反向变化,相关系数等于-1,为完全负相关。
散点不完全在同一直线上,沿直线分布越集中,相关系数越接近1,预测准确性逐渐增加。相反,沿直线分布越分散,相关系数越接近0,预测的准确性逐渐减弱。

1.r 的取值范围在 [0,1]
|r|>=0.8:高度相关

0.5<=|r|<0.8:中度相关

0.3<=|r|<0.5:低度相关

|r|<0.3:不相关
2.r 具有对称性,x与y的相关性系数和y与x的相关性系数相等
3.r 的数值与x和y的原点及尺度无关
4.r 仅仅表示线性关系的度量,不能用于非线性关系。例如,当r=0时只能表示两个变量之间没有线性相关关系,但是它们之间可能存着非线性相关关系

皮尔森相关性系数对数据是有比较高的要求的:
第一, 实验数据通常假设是成对的来自于正态分布的总体。为啥通常会假设为正态分布呢?因为我们在求皮尔森相关性系数以后,通常还会用t检验之类的方法来进行皮尔森相关性系数检验,而 t检验是基于数据呈正态分布的假设的。

第二, 实验数据之间的差距不能太大,或者说皮尔森相关性系数受异常值的影响比较大。比如刚才心跳与跑步的例子,万一这个人的心脏不太好,跑到一定速度后承受不了,突发心脏病,那这时候我们会测到一个偏离正常值的心跳(过快或者过慢,甚至为0),如果我们把这个值也放进去进行相关性分析,它的存在会大大干扰计算的结果的。
第三,两个变量之间是线性关系,都是连续数据。

「相同点」:二者符号的正负代表两变量变化趋势是同向还是反向;
「差异点」:相关系数的取值与数据的scale无关,不论数据的多少,只要数据完全在同一条直线上(陡峭或者平缓),相关系数就为1或者-1;而协方差取值对数据的scale敏感。这个原因使得协方差本身的意义难以阐释。皮尔森相关性系数是协方差与标准差的比值。

假设我们有一组数据,每一列代表一个样本,每一行代表一个基因在不同样本中的表达量

斯皮尔曼相关性系数,通常也叫斯皮尔曼秩相关系数,这是一种无参数(与分布无关)检验方法,要求数据具有同升或同降变化趋势,但明显不具有线性相关关系。

“秩”,可以理解成就是一种顺序或者排序,那么它就是根据原始数据的排序位置进行求解,这种表征形式就没有了求皮尔森相关性系数时那些*。

也就是说,我们不用管X和Y这两个变量具体的值到底差了多少,只需要算一下它们每个值所处的排列位置的差值,就可以求出相关性系数了。

另外,即使出现异常值,由于异常值的秩次通常不会有明显的变化(比如过大或者过小,那要么排第一,要么排最后),所以对斯皮尔曼相关性系数的影响也非常小!

用“秩”的概念,一方面可以解决异常值的问题,但是有好就有坏,这在另外一方面,也说明,这种方法的检验效力没有pearson相关系数强,因为它忽略了相关性的具体大小,而只保留了大小关系。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
PCR有哪些分类? 不鸣则已 一鸣惊人的三个星座 电动车加装蓝牙音箱怎么接线 怎么把QQ同步助手卸载掉?简直就是垃圾,什么没操作就直接给安装上了,怎... 怎么把QQ同步助手卸载掉?简直就是流氓软件。什么东西没经过我点‘’同 ... excel表如何将相间隔的不同两行组合在一起,成为一行? excel工作表如何对行各自组合 考科目一自己去还是驾校统一去 科目一是自己考还是在驾校 社保转移后,新单位没要转移单,只要了身份证,是不是就可以办理了 什么是社保转移 后脑勺脱发脱成一个小太阳是什么脱发? 背景音乐怎么弄? ‘你有多久没有看过那片海’是哪首歌的第一句歌词 女生追男生的技巧集锦 高冷男神也能被你征服 高冷的男生喜欢女生会有怎样的表现? 《高冷男神求扑倒:追爱99天》txt下载在线阅读全文,求百度网盘云资源 学会收服这些星座高冷男神 魏璎珞教你如何俘获“高冷男神”的秘诀 终于表白了,哪些星座遭遇表白会感动到落泪? 手上有3D源文件,不知道哪个是渲染后的,请问要用什么软件打开或者渲染? 醒图模版怎么设置别人可以换图片 关于八字的书 之前手机里面的电影用es文件浏览器加过密,后来手机恢复了出场设置,发现手机里的视频文件都有eslo 如何将png格式的图片转换为jpg格式? 不锈钢餐具会不会中毒? 请教,dos 获取当前文件夹名称 《戴建业作品集》云笔记 小时光怎么设置国际拥抱日提醒? 弄个录取通知书样式的创意蛋糕 翻糖蛋糕自己在家自学能学会吗,对于一个零基础 联想a3690怎么格式化sd卡 联想a3860怎样格式化sd卡 联想A3860怎么格式化内存卡啊 联想a2860怎么格式化sd卡 联想a369格式化sd卡怎么弄? 王者荣耀里面没有录音的那个怎么找? 王者荣耀怎样录音 请问王者荣耀怎么录进队友的声音,我用手机自带的录屏,没有声音? 电热水器功率一般多大?家庭用选多大功率好?什么品牌好? 电热水器功率有哪些 有此以来的意思 由此而来的成语意思 由此而来”是什么意思? 由此而来的意思,谢谢大家帮助,我感激不尽,O(∩_∩)O哈哈哈~【愚人节快乐哦】 北宋时期有个著名的画家叫文与可,他特别喜欢画竹子。“胸有成竹”就是由此而来的,它的意思是? 成语什么是由七步诗由此而来 虎虽凶猛,尚且不吃虎崽。成语“虎毒不食子”即由此而来,比喻人皆有爱子之心。吗 斯诺克大师赛和英锦赛哪个份量更高一些? 没有手机号可以注册吗? 不用手机号码可以注册吗?