32、统计与机器学习中的数据挖掘：处理缺失值与模型构建

snow3

于 2025-08-04 13:07:56 发布

阅读量43

点赞数

CC 4.0 BY-SA版权

分类专栏：数据挖掘的统计与机器学习文章标签：数据挖掘缺失值处理 CHAID插补

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/snow3/article/details/151003496

数据挖掘的统计与机器学习专栏收录该内容

58 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

统计与机器学习中的数据挖掘：处理缺失值与模型构建

1. 缺失值处理方法概述

在数据挖掘过程中，缺失值是一个常见且棘手的问题。传统的缺失值处理方法，如完全案例分析、可用案例分析、均值插补和基于回归的插补等，都存在一定的局限性。这些方法通常基于 MAR（Missing at Random）和 MCAR（Missing Completely at Random）假设，但这些假设的有效性难以甚至无法验证。

专家提醒，插补虽然具有吸引力，但也存在风险。对于大数据应用，应谨慎使用插补方法，并对结果进行审慎评估。因此，寻找更可靠的缺失值处理方法至关重要。

2. CHAID 插补方法

2.1 CHAID 插补的原理

CHAID（Chi-squared Automatic Interaction Detection）是一种用于填补缺失值的替代方法。它通过创建最优的同质组作为可靠的插补类，确保插补估计的可靠性。CHAID 插补方法具有与探索性数据分析（EDA）相媲美的显著特征。

2.2 以 GENDER 变量为例的 CHAID 分类树插补

以 GENDER 变量的插补为例，通过选择性地向首选的单变量 CHAID 树添加匹配变量（如 AGE_CUST、PRIOR_3 和 LIFE_DOL），生成分类树，以提高插补估计的可靠性（即增加 PTCC 值）。

AGE_CUST - PRIOR_3 - LIFE_DOL 分类树有 12 个终端节点，每个节点代表不同的特征组合。例如，节点 1 包含 1013 个年龄在 [18, 24) 区间且在过去 3 个月内未进行过先前购买（PRIOR_3 = no）

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。