28、分类器算法详解:决策树与支持向量机

分类器算法详解:决策树与支持向量机

1. 算法透明度与公平性

在申请贷款被银行拒绝时,银行能够展示每一步的评估测试,这体现了算法的透明度。然而,透明度并不等同于公平合理。银行可能采用了对某些社会群体有偏见的测试,或者依据一些看似无关的标准。立法者往往更倾向于执行能体现透明度的法律,因为这相对容易证明,而公平性的衡量则困难得多。透明度虽好,但不能保证系统按我们期望的方式运行。

2. 决策树的过拟合问题

决策树容易做出糟糕的决策,主要原因是它极易过拟合。下面通过具体例子来理解决策树构建过程中的过拟合现象。
- 双月数据集示例 :有一组数据呈现出类似两个半月形状的分布,被称为双月数据集。构建决策树时,每一步可能涉及分割叶子节点,使树增加一个内部节点和一个叶子节点。通常用叶子节点的数量来衡量树的大小。
- 开始时,树只有一个根节点,对应一个覆盖整个区域的蓝色框。当收到橙色曲线顶部附近的橙色点时,将根节点水平分割为两个框。接着收到蓝色曲线左侧附近的蓝色点,又将橙色框垂直分割,此时共有三个叶子节点。随着更多样本的加入,树不断生长,区域逐渐细化。
- 最终的树仅需12个叶子节点就能正确分类所有训练样本,但存在过拟合现象。例如,两个水平的细矩形包围了弧线左侧顶部的两个橙色样本,尽管这些矩形几乎完全处于蓝色区域,但未来落入其中的点仍会被分类为橙色。
- 噪声数据示例 :当数据添加了大量噪声,两个类别的边界不再清晰时,决策树过拟合的问题更加明显。拟合这样的数据时,开始是大区域划分,随后迅速变成复杂的小框。为正确分类这些点,树需要100个叶子节点。从不同的随机70%样本构建的树差异明

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值