统计与机器学习数据挖掘:SRD 与 PCA 方法详解
在数据挖掘领域,有许多方法可以帮助我们从海量数据中提取有价值的信息。本文将介绍两种重要的数据挖掘方法:SRD 方法和主成分分析(PCA)方法。
SRD 方法:一种新的统计数据挖掘方法
SRD 方法是一种新的统计数据挖掘方法,它将对称化和变量排序这两个基本统计工具相结合,产生了具有更高预测能力的新变量。该方法的核心步骤如下:
1. 定义新变量的测量尺度 :详细介绍了 Steven 的测量尺度,为新的对称重新表达变量提供了框架,并将新创建的 SRD 变量定义在近似区间尺度上。
2. 回顾 EDA 基础元素 :快速回顾了茎叶图和箱线图等探索性数据分析(EDA)的基本元素,这些元素对于理解 SRD 方法的基础至关重要。
3. 实例验证 :通过两个实例展示了对称重新表达变量相对于原始变量的改进预测能力,为模型构建者应用 SRD 方法提供了起点。
主成分分析(PCA):多变量评估的统计数据挖掘方法
主成分分析(PCA)是一种经典的数据降维技术,由 Karl Pearson 在 1901 年发明。它可以揭示多个变量之间的相互关系,并且在数据挖掘领域有着广泛的应用。
PCA 的基本概念
PCA 的主要目标是将一组 $p$ 个变量 $X_1, X_2, \ldots, X_p$ 转换为 $p$ 个线性组合变量 $PC_1, PC_2, \ldots, PC_p$,使得原始变量集中的大部分信息(变异)可以由较少的新变量表示,并且这些新变量
超级会员免费看
订阅专栏 解锁全文
28

被折叠的 条评论
为什么被折叠?



