临床数据的统计挖掘方法
1. 聚类算法
1.1 层次聚类算法
层次聚类是一种重要的聚类算法,在临床数据分析中有着广泛的应用。例如,它可以用于寻找纤维肌痛患者在多个症状量表上具有相似疗效结果的分组,识别结核病易感性的生物标志物,以及确定创伤后不同的止血反应和止血系统中在不同反应间变化的关键成分。
在工具使用方面,R语言的stats包中的hclust函数可以进行层次聚类。此外,cluster、fastcluster、fastClust、genie和pvclust等R包也实现了层次聚类方法。SAS的CLUSTER过程同样提供了层次聚类的实现。同时,开源的Cluster 3.0软件适用于大多数操作系统,而且大多数商业统计软件包都具备层次聚类功能。
1.2 主成分分析及相关方法
主成分分析(PCA)是一种降维方法,其目标是找到数据的低维表示,以捕捉数据中大部分感兴趣的信息(变异性)。经典的PCA方法依赖于将数据进行正交线性变换到新的坐标系,其中主成分是近似一组N个p维数据点的线性流形。此外,也有一些非线性的PCA推广方法,其中主成分是弯曲流形近似。
在构建主成分时,通常会在对变量进行适当标准化(例如使均值为0,标准差为1,对应于基于相关矩阵的PCA)后,通过数据协方差或相关矩阵的特征值分解,或者数据矩阵的奇异值分解来实现。是否对原始数据或变换后的数据应用PCA,以及选择何种合适的变换,取决于各种具体的问题考虑。
例如,基于数据协方差的PCA可以捕捉变量间方差的非平凡差异,而基于相关性的PCA则有效地将数据标准化为具有相同(单位)方差。当变量具有可比性时,如反映相似的评分量表或在不同时间点测量的相同结果,
超级会员免费看
订阅专栏 解锁全文
1208

被折叠的 条评论
为什么被折叠?



