数据处理中的变量分析与消除策略
在数据处理领域,化学家常用聚类分析来检查数据。聚类分析有多种类型,其总体目标是基于某种相似性度量在数据中找出分组。相似性度量可以是相关性度量(如相关系数),也可以是距离度量(如欧几里得距离)。一种常见的报告聚类分析结果的方法是使用树状图,在树状图中,被聚类的对象以连接的组形式显示。
1. 聚类分析与维度缩减
聚类分析是一种有效的数据检查方法。以电荷转移数据集中剩余的31个变量为例,通过树状图可以清晰看到变量之间的关系。就像在因子载荷图中显示的那样,一组大小描述符被聚类在一起。
除了聚类分析,还有一些其他的维度缩减技术,如人工神经网络,但这里暂不展开讨论。
2. 变量消除的概念
变量消除不应与维度缩减相混淆。维度缩减可以通过主成分分析(PCA)或因子分析(FA)来实现,而变量消除是将变量从数据集中物理移除,并且不会在任何模型构建中使用这些变量。关于变量消除的问题主要有两个:
- 为什么要消除变量,这是否意味着丢弃信息?
- 应该消除哪些变量,决定变量去留的标准是什么?
3. 消除变量的原因
变量被消除主要有两个原因:
- 小方差变量 :如果变量的方差低于某个阈值,就会被消除。在中等规模的数据集中,经常会发现至少有一个变量是常量或接近常量,即除了一个条目外,其他条目都相同。这种情况可能是因为研究人员在记录对象特定属性的存在或不存在时,没有检查特定类别是否得到了很好的体现。当数据被划分为训练/验证组时,这些变量可能在一组中取一个值,而在另一组中取另一个值。
- 冗余变量 <