数据挖掘中的异常值处理与过拟合问题解决
1. 异常值处理
1.1 传统异常值检测方法的不足
在统计和机器学习的数据挖掘中,传统的异常值检测方法存在一定缺陷。当前确定并丢弃异常值的方法,往往基于正态性这一难以成立的假设进行测试,且未考虑异常值存在的原因。在统计回归建模中,异常值是一个严重问题,因为统计回归模型对异常值非常敏感,异常值可能导致估计的回归模型预测结果存疑。若没有可行的稳健异常值检测方法,统计回归模型在实际应用中可能会产生无法确定的预测结果。
1.2 替代方法:使用散点图和 GenIQ 模型
为解决上述问题,我们可以采用一种替代方法,即结合双变量图形异常值技术(散点图)和 GenIQ 模型来处理异常值,而不是简单地将其丢弃。
1.2.1 示例数据集
以一个包含 101 个点的数据集(XX, Y)为例,该数据集包含四个“质量点”和一个“单点”,具体信息如下表所示:
| 点类型 | 坐标 | 观测数 |
| ---- | ---- | ---- |
| 质量点 | (17, 1) | 25 |
| 质量点 | (18, 2) | 25 |
| 质量点 | (19, 4) | 25 |
| 质量点 | (20, 4) | 25 |
| 单点 | (1, 20) | 1 |
1.2.2 散点图分析
散点图是检查异常值的有效可视化工具。通过观察(XX, Y)的散点图,我们发现点 (1, 20) 可能是一个异常值。计算得到 (XX, Y) 的相关系数为 -0.41618,但由于此时 XX 和 Y 的关
超级会员免费看
订阅专栏 解锁全文
1987

被折叠的 条评论
为什么被折叠?



