ConsensusClusterPlus包是R语言中实现consensus clustering的一种方法。
主要有三个步骤:1,准备输入数据;2,跑流程;3,generating consensus
- 1-输入数据
输入数据要求无特别,列为样本行为基因、标准化的表达矩阵。
值得注意的是,此包默认选择以median absolute deviation (MAD)衡量的top5000高变基因用于分析,以更好的聚类分群(这和单细胞很像)。选择多少基因和选择方法都是可以自己选择的,因为这步骤用的classical R statistics而非包中的集成化命令。
library(ALL)
data(ALL)
d=exprs(ALL)
d[1:5,1:5]
mads=apply(d,1,mad)
d=d[rev(order(mads))[1:5000],]
d = sweep(d,1, apply(d,1,median,na.rm=T))
- 2-聚类
几个重要参数:
pItem: percent of items (column) resampling
pFeature: percent of features (rows) resampling
maxK: maxium cluster counts
reps: resampling times
clusterAlg: agglomerative hierarchical clustering algorithm
distance: 1- Pearson correlation distances<