生物学重复好不好--看看样本相关性

引言

生物学实验中,常常需要设置重复,例如技术重复、生物学重复,以此确保不是个体的偶然变异对结果产生影响。以转录组数据为例,一般会设置3-5个生物学重复,如何确认生物学重复的效果好坏呢,方法有很多,可以计算两两样本之间的相关性,可以进行样本的PCA分析,或者绘制聚类热图,这里首先介绍样本相关性方法。
我们将在R,使用Rstudio进行计算绘图。

数据

转录组数据分析完成以后,我们会拿到基因表达矩阵,格式如下,行为基因,列为样本(也可以是行为样本,列为基因,在R中转置函数t()可以秒秒种搞定)。
在这里插入图片描述

计算相关系数

何谓相关?简单来说若你高我也高,你低我也低,或者你高我低都可以叫做相关。数理统计上通过计算相关系数来衡量,取值[-1, 1],负数表示负相关,正数表示正相关。在显著性的前提下,绝对值越大,相关性越强。绝对值为0, 无线性关系;绝对值为1表示完全线性相关。有Pearson, Spearman和 Kendall 三类相关系数,它们的特点是:
| 相关系数 | 适用变量类型 |假设条件|
|–|–|–|–|
| Pearson | 连续变量|1.服从正态分布,2.两个变量的标准差不为0 |
| Spearman|连续变量/等级数据| 成对等级相关数据即可|
|Kendall|有序分类变量| 成对等级相关数据即可|
可以看到除了Pearson相关系数对数据有严格要求外,其他两种的适用范围都比较广,当你不确定数据分布时,一般适用Spearman即可。

这里要计算样本之间的相关性,落实到代码中,其实就是分别计算数据列与列之间的相关系数。

## 设置工作路径
setwd('/Users/yut/Desktop/data')

fpkm <- read.table('control_case_fpkm.txt', header = T, row.names = 1)	#header=T,第一行指定为列名,row.names=1指定第一列为行名
View(fpkm) #查看数据
## 计算样本之间的相关性

corr <- cor(fpkm, method = 'spearman')  #cor函数计算两两样本(列与列)之间的相关系数
View(corr)	#查看样本之间的相关系数

cor函数返回样本之间的相关系数矩阵,对角线为样本自身与自身的相关系数1,左下和右上半角是一样的

评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值