构建基因表达矩阵的时候,其基因个数和样本个数都会达到成千上万个,这时在做PCA分析或者差异基因分析前最好排除表达量低的样本和基因
#加载相应的安装包
library(tidyverse)
#例子如下
gdf <- tibble(g = rnorm(4, 0.5, 0.5), v1 = rnorm(4,1,0.5), v2 = rnorm(4, 1.5, 0.5)
gdf <- gdf%>% mutate(v3 = rep(0,4))
gdf
Output:
# A tibble: 4 x 4
g v1 v2 v3
<dbl> <dbl> <dbl> <dbl>
1 0.718 1.48 0.646 0
2 0.0799 1.60 1.40 0
3 0.925 0.715 1.26 0
4 0.217 1.05 1.76 0
横坐标为样本,纵坐标为基因,此时可以看做有4个基因,4个样本:
如果我们要排除在所有样本中表达量均为0的基因(即v3),可以用colSums函数:
colSums(gdf)>0
Output:
g v1 v2 v3
TRUE TRUE TRUE FALSE
筛选所有样本中表达量的和大于0的基因:
gdf [,colSums(gdf)
基因表达矩阵的预处理:去除低表达样本与基因

在构建基因表达矩阵后,为了PCA分析和差异基因研究,通常需要剔除表达量低的样本和基因。通过使用R语言的`colSums`函数,可以筛选出基因在所有样本中表达量总和大于0的,以及至少在2个样本中表达的基因。同时,还需确保样本至少表达2个基因。这一过程能有效减少矩阵大小,便于后续分析。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



