covariance 公式_协方差(covariance)与相关系数(1)

本文介绍了协方差的概念及其在描述正向、负向和无相关趋势中的作用。通过计算和举例说明,强调协方差对数据尺度的敏感性,并指出相关系数作为其不敏感于尺度的替代指标。文章总结了协方差在分析中的应用,并预告了后续关于计算相关系数的内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.三类关系趋势

如下,在测量5个肝细胞gene x 转录本表达情况的基础上,同时也测量这5个肝细胞gene y转录本表达量。对来自同一细胞(sample)的两个数据进行配对,利用其在X轴(green)和Y轴(red)上的数据在二维平面组成一个新的点(蓝色的点)并用直线对其进行拟合。

  • 1)如果斜率(slope)为正,gene x与gene y在细胞中表达成正相关。gene x表达水平随gene Y表达水平的增加而增加。利用拟合的直线,可以根据gene x的表达量预测gene y表达水平,也可以基于gene y的表达量预测gene x的表达水平。

    53da92247906b163f69bc9dd7718828f.png
  • 2)如果斜率为负,Gene x与gene y的表达呈现负相关趋势。较低的gene x表达水平对应较高的gene y表达水平,较高的gene x水平对应较低的gene y表达水平。5876492357ee317311f2434267d5a2a5.png

  • 3)如果斜率为0或者斜率不存在,gene x与gene y的表达水平之间无关联。表现为gene y/x的表达水平不随gene x/y的表达量变化而变化。180692bed6669d35683cb584d594c9bc.png

小结:covariance 的主要思想之一,其可以将数据分为三类关系:正向趋势的关系;负向趋势的关系;无任何趋势的关系。

2. 协方差描述三类关系趋势

「如何计算covariance:」

  • 协方差的计算公式:3f180aa757e1f5d4fc1790a5fd5046ae.png

「当协方差为正时,gene x与gene y两变量间表现为正相关性。」 依次将数据代入公式,可以发现:两个黄色象限(一、三象限)的样本都对整体协方差做成正的贡献。协方差为116,它意味着gene x与gene y之间的拟合相关直线斜率是正值。因此,可以得出这样的结论:当协方差为正时,gene x与gene y之间呈正的变化趋势。3d7eefbba405d80b0950331ad5edbb24.png

「当协方差为负,gene x与gene y两变量间表现为负相关性。」 假设gene y的值与前不同,gene y的样本均值为20.2。Gene x的值保持不变,gene x的均值为17.6。我们使用协方差的计算公式计算gene x与gene y的协方差,在黄色象限的数据对整体协方差做出负的贡献,最后协方差等于-105.15。因此可以得出结论:当协方差为负时,gene x与gene y两变量间的相关性直线的斜率为负。

15d68fc5728aad7b0ea213611ac64ce2.png

「将协方差为0时,gene x与gene y两变量间表现为无相关性。」 同样的计算方法,我们可以推算出,当gene x与gene y表达水平无关系时,协方差等于0。因此可以得出结论:当协方差为0时,gene x与gene y两变量间无相关关系。81947856e7d961dd2e2ac7c28c351174.png

注意!!!协方差本身并不容易被阐释,它不能告诉我们相关性直线的斜率(陡峭或平坦),也不能告诉我们样本是否靠近相关性直线,它仅仅告诉我们两变量之间的相关性直线的斜率是正还是负。

3.协方差对数据的scale敏感

协方差本身的意义难以诠释,故我们不会以计算协方差为目标。但是计算协方差是其他计算的基础,例如相关系数(correlation)

「协方差对数据的scale敏感,使其不能揭示数据间的相关性程度。」

  • 例如,计算gene x与gene x的协方差,带入公式可得102;将gene x的表达水平扩大2倍后,求得gene x与其自身的协方差为408,是原来数据的4倍(如下)。故协方差对数据的scale非常敏感,此造成了协方差本身的难以阐释。554fdb2cdd9fe62ef6924b57e173b494.png

  • 又例如:左边的数据较右边的数据更接近相关性直线,左边数据对应的协方差为102;右边数据对应的协方差为381,远大于左侧数据的协方差。将右侧数据同时缩小4倍后,数据距离相关性直线的距离未发生改变,但对应的协方差变为24,小于原来的协方差,也小于左侧数据的协方差。d29691c7a07887ba885ec27ebedb9a55.png

「协方差的替代指标:相关系数(Correlation)」 。计算协方差是计算correlation的第一步,描述两变量关系的相关系数(Correlation)对数据的scale不敏感。

除此之外,计算协方差是很多分析的基础。如PCA和其他一些有趣的分析。

4.小结

协方差是可以描述3类相关关系,包括正相关(协方差>0)、负相关(协方差<0)和无相关(协方差=0)。因为协方差对数据的scale异常敏感,故其本身的意义很难解读,但是它确实计算相关系数和其他指标的基础。在接下来的一小节,我们将继续学习利用协方差计算相关系数。

参考视频:

1. https://www.youtube.com/watch?v=qtaqvPAeEJY&list =PLblh5JK OoLUK0FLuzwntyYI10UQFUhsY9&index=15

2. https://www.youtube.com/watch?v=xZ_z8KWkhXE&list =PLblh5JK OoLUK0FLuzwntyYI10UQFUhsY9&index=16

编辑:吕琼

校审:罗鹏

8ea2c08c4ec8b5cb1710f6123a722ed5.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值