数据挖掘中的监督分割与树结构模型详解
1. 特征选择与模型构建
在数据挖掘领域,特征选择是构建有效模型的关键步骤。例如,在判断蘑菇是否可食用时,若仅使用单一特征,气味是一个不错的选择。若要构建更复杂的模型,也可先考虑气味这一属性,再添加其他属性。
特征选择的重要性在于找到能从数据中提取有用信息的属性。但仅靠属性选择可能并不足以完成有效的监督分割。若只选择信息增益最大的单个变量,会得到非常简单的分割;若选择多个有一定信息增益的属性,又不清楚如何将它们组合起来。而我们期望创建使用多个属性的分割,如“居住在纽约市的中年专业人士平均流失率为 5%”这样的分割。
2. 分类树模型
分类树是一种树结构模型,它能实现我们所需的监督分割。分类树由节点(包括内部节点和终端节点)和从内部节点发出的分支组成。内部节点包含对属性的测试,每个分支代表属性的一个不同值。从根节点沿着分支向下,每条路径最终都会终止于一个终端节点(即叶子节点)。每个叶子节点对应一个分割,路径上的属性和值给出了该分割的特征。
分类树常用于预测模型。当面对一个未知分类的新实例时,可从根节点开始,根据实例的属性值选择分支,最终到达叶子节点,该叶子节点给出的分类即为预测结果。例如,对于一个名为 Claudio 的人,其属性值为 Balance = 115K,Employed = No,Age = 40。使用分类树进行分类时,从根节点测试 Employed,值为 No 则选择右分支;下一个测试是 Balance,值为 115K 大于 50K,再选择右分支到测试 Age 的节点;值为 40 选择左分支,最终到达叶子节点,预测 Claudio 不会违约,即分类为 Not Write - off。 <
超级会员免费看
订阅专栏 解锁全文
816

被折叠的 条评论
为什么被折叠?



