《机器学习(周志华)》Chapter4 决策树 课后习题答案

由决策树生成过程可知,不含冲突数据对结点标记有两种情况,一、划分后数据集为同一类则结点标记为该类的叶节点,二、划分后数据集中的属性相同则标记为数据集中类别最多的类。这样所有属性相同的样本最终标记必定会一样,即必存在误差为0的决策树。


训练误差不一定能代表泛化误差,若以最小训练误差作为决策树划分选择准则会容易导致过拟合,泛化性能差


4.3编程实现id3


4.4编程实现CART







### 周志华机器学习课后习题答案 对于周志华机器学习》书中第一章的部分习题解答如下: #### 表1.1中若只包含编号为1和4的两个样例,试给出相应的版本空间 当表1.1仅保留编号为1和4的样例时,版本空间是指所有能与这两个样例相一致的假设集合。由于只有两个样例,因此可以构建出较为具体的版本空间描述[^1]。 ```python # Python伪代码展示如何枚举可能的假设组合 def generate_version_space(): attributes = ['Sunny', 'Warm', '?', 'Normal', 'Young'] version_space = [] # 枚举满足条件的假设 for sky in ['Sunny', '?']: for temperature in ['Warm', '?']: for humidity in ['?', 'High', 'Normal']: for wind in ['Strong', '?']: for water in ['Warm', '?']: for forecast in ['Same', '?']: hypothesis = [sky, temperature, humidity, wind, water, forecast] # 判断该假设是否符合给定的正实例 if (hypothesis[:3] == ['Sunny', 'Warm', 'Normal'] or '?' in hypothesis[:3]) and \ (hypothesis[-2:] == ['Warm', 'Same'] or '?' in hypothesis[-2:]): version_space.append(hypothesis) return version_space ``` 上述Python伪代码展示了如何通过编程方式来列举符合条件的假设列表,从而形成版本空间的一部分。 #### 若数据包含噪声,则假设空间中有可能不存在与所有训练样本都一致的假设,在此情形下,试设计一种归纳偏好用于假设选择 面对含噪数据的情况,可以选择引入某种形式的归纳偏置或偏好原则来进行更稳健的学习过程。例如,采用奥卡姆剃刀原理(Occam's Razor),即倾向于选择最简单的解释作为最终模型;或是基于最大似然估计(Maximum Likelihood Estimation)的方法去挑选那些能够最大化观察到的数据概率分布下的参数配置。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值