1、在一个用十个布尔属性描述示例的领域中,实例空间的大小是多少?分类器空间有多大?
实例空间大小:由十个布尔属性可创建 2¹⁰ 个不同示例,即实例空间大小为 2¹⁰。
分类器空间大小:实例空间子集数量为 2^(2¹⁰),这就是分类器空间大小。
2、在数据处理中,存在一些数据相关难题。哪些是真正严重的,哪些或许可以容忍?
真正严重的难题包括:
- 无关属性会增加计算成本,甚至误导学习器;
- 缺失关键属性会导致训练集不一致,难以归纳出好的分类器。
可以容忍的难题是冗余属性,其危害相对较小,因为其值可从其他属性获得。
3、冗余属性和无关属性有什么区别?
无关属性是指其值与给定示例的类别无关,但会影响向量间的几何距离;冗余属性是指其值可以从其他属性的值中获得,例如年龄可以从出生日期的值中得到。
无关属性和冗余属性都会误导某些归纳技术,不过无关属性对k - NN分类器计算的向量间距离的影响更大,而决策树等范式对冗余属性的敏感度相对较低,但两者都可能导致过高的计算成本。
4、选择一个你认为难以描述的类别,例如识别复杂的生物对象(橡树、鸵鸟等)或识别音乐流派(摇滚、民谣、爵士等)。列出用于描述训练示例的属性列表。这些属性的值是否容易获取?会有哪些问题使学习过程变得复杂?
以识别橡树为例,可列出以下属性描述训练示例:
- 外观特征 (树干粗细、树皮纹理、树冠形状)
- 树叶特征 (形状、颜色、大小)
- 生长环境 (海拔、土壤类型、光照条件)
这些属性值获取难度不同,外观和树叶特征较易观察测量,但生长环境中部分数据需专业工具和实地考察。
会使学习过程复杂的问题有:
- 未知属性值 :生长环境中某些数据可能无法准确获取。
- 无关和冗余属性 :所选属性中可能存在对识别橡树无关或可从其他属性推导的冗余属性,影响学习效果和增加计算成本。
- 噪声 :属性值可能受测量误差、自然环境变化等产生噪声,干扰学习。
- 类别定义变化 :橡树在不同生长阶段和环境下特征有差异,导致类别定义随时间和环境变化,增加学习难度。
5、一枚硬币抛了三次,分别出现正面、反面、反面。使用 m = 3 和 θ_正面 = θ_反面 = 0.5 计算这些结果的 m - 估计值。
根据公式:
$$
P_{heads}=\frac{N_{heads}+m\theta_{heads}}{N_{all}+m}
$$
已知:
- $N_{all}=3$
- $N_{heads}=1$
- $m = 3$
- $\theta_{heads}=0.5$
则:
$$
P_{heads}=\frac{1 + 3\times0.5}{3 + 3}=\frac{1+1.5}{6}=\frac{2.5}{6}=\frac{5}{12}\approx0.42
$$
同理,对于 $P_{tails}$:
$$
P_{tails}=\frac{N_{tails}+m\theta_{tails}}{N_{all}+m}
$$
已知:
- $N_{tails}=2$
- $\theta_{tails}=0.5$
则:
$$
P_{tails}=\frac{2 + 3\times0.5}{3 + 3}=\frac{2 + 1.5}{6}=\frac{3.5}{6}=\frac{7}{12}\approx0.58
$$
6、机器学习研究人员经常使用公开可用的基准领域来测试他们的算法。可以在以下地址找到大量此类领域的存储库:www.ics.uci.edu/~mlearn/MLRepository.html。查看这些数据,分析它们在属性数量、属性类型、规模等方面有何不同。
需访问 www.ics.uci.edu/~mlearn/MLRepository.html 查看数据,分析其在属性数量、属性类型、规模等方面的差异。
7、提出最近邻原则的其他变体。提示如下:(a) 引入替代的距离度量,这些距离度量需满足特定的公理(这里假设公理为非负性、对称性、三角不等式等常见距离度量公理)。(b) 修改投票方案,假设一些示例是由知识渊博的“教师”创建的,而其他示例是从数据库中获取的,没有考虑它们的代表性。显然,教师的示例应该具有更大的权重。
可以通过以下两种方式提出最近邻原则的变体:
- 引入替代距离度量 :采用满足非负性、对称性、三角不等式等常见距离度量公理的其他距离度量方式;
- 修改投票方案 :给予由知识渊博的“教师”创建的示例更大权重,而从数据库获取且未考虑代表性的示例权重较小。
8、设计一个使用爬山搜索来移除冗余示例的算法。提示:初始状态包含整个训练集,搜索算子每次移除一个训练示例(这种移除不能影响性能)。
- 创建两个列表,
L和Lseen。开始时,L仅包含整个训练集作为初始状态,Lseen为空。 - 令
n为L的第一个元素。将当前移除示例后的训练集表现与原训练集表现对比(确保移除不影响行为),若满足要求且达到目标状态(比如分类准确率等指标不变),停止并标记成功。 - 对
n应用搜索算子,即每次移除一个训练示例,得到一组新的训练集状态。丢弃那些已存在于Lseen中的状态。对于其余状态,使用评估函数(如分类准确率等)进行排序,并将它们置于L的前端。 - 将
n从L转移到已调查状态的列表Lseen中。 - 如果
L为空,停止并报告失败;否则,返回步骤 2。
机器学习核心问题解析与实践

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



