生物学重复好不好--看看样本相关性

原创

已于 2023-12-21 20:57:16 修改 · 1.8w 阅读

42 ·

CC 4.0 BY-SA版权

文章标签：

#python #人工智能 #机器学习 #correlation

于 2020-09-19 22:03:55 首次发布

文章目录

引言
数据
计算相关系数
映射相关系数到热图
corrplot输入
完整代码

引言

生物学实验中，常常需要设置重复，例如技术重复、生物学重复，以此确保不是个体的偶然变异对结果产生影响。以转录组数据为例，一般会设置3-5个生物学重复，如何确认生物学重复的效果好坏呢，方法有很多，可以计算两两样本之间的相关性，可以进行样本的PCA分析，或者绘制聚类热图，这里首先介绍样本相关性方法。
我们将在R，使用Rstudio进行计算绘图。

数据

转录组数据分析完成以后，我们会拿到基因表达矩阵，格式如下，行为基因，列为样本（也可以是行为样本，列为基因，在R中转置函数t()可以秒秒种搞定）。
在这里插入图片描述

计算相关系数

这里要计算样本之间的相关性，落实到代码中，其实就是分别计算数据列与列之间的相关系数。

## 设置工作路径
setwd('/Users/yut/Desktop/data')

fpkm <- read.table('control_case_fpkm.txt', header = T, row.names = 1)	#header=T,第一行指定为列名，row.names=1指定第一列为行名
View(fpkm) #查看数据
## 计算样本之间的相关性

corr <- cor(fpkm, method = 'spearman')  #cor函数计算两两样本（列与列）之间的相关系数
View(corr)	#查看样本之间的相关系数

cor函数返回样本之间的相关系数矩阵，对角线为样本自身与自身的相关系数1，左下和右上半角是一样的

最低0.47元/天解锁文章

9 条评论

senlin129 2024.03.21
请问用fpkm数据计算相关系数是，是否可以提前对样本进行log归一化（因为有的用原始FPKM，重复间的相关性不太好；用归一化的数据，重复性就变好了）
- Neptuneyut回复senlin129 2024.03.21
  理论上说fpkm已经标准化了，当然使用log转换成正态也是可以的

weixin_57706381 2022.04.28
您好我在算这一行的时候fpkm <- read.table('control_case_fpkm.txt', header = T, row.names = 1)报错Error in read.table("1.txt", header = T, row.names = 1, encoding = "UTF-8") : 不允许有重复的'row.names' 检查了没有空格，怎么处理呢
- Neptuneyut回复weixin_57706381 2022.04.28
  看报错提示，是说你第一列作为行名的话有重复相同的值，检查一下重命名即可