简单机器学习任务的探索与实践
在机器学习领域,有许多基础而重要的概念和技术,它们构成了构建更复杂模型和算法的基石。本文将深入探讨简单机器学习任务中的一些关键内容,包括爬山搜索算法、其在机器学习中的应用、分类器性能评估以及训练数据中可能存在的问题。
爬山搜索算法
爬山搜索算法是一种基本的搜索技术,其基本步骤如下:
1. 创建两个列表,L 和 Lseen。开始时,L 仅包含初始状态,Lseen 为空。
2. 令 n 为 L 的第一个元素,将此状态与最终状态进行比较。若相同,则成功停止。
3. 对 n 应用所有可用的搜索运算符,得到一组新状态。丢弃那些已存在于 Lseen 中的状态,其余状态按评估函数排序并置于 L 的前端。
4. 将 n 从 L 转移到已调查状态的列表 Lseen 中。
5. 若 L 为空,停止并报告失败;否则,返回步骤 2。
这个算法的名称来源于爬山的隐喻。在某些状态下,“子”状态可能不会比“父”状态有明显改善,就像爬山者有时需要先穿过山谷才能继续攀登一样。
机器学习中的爬山算法应用
约翰尼的馅饼问题
以判断约翰尼喜欢哪些馅饼为例,输入是一组训练示例,每个示例由可用属性描述。输出是一个布尔表达式,对于训练集中的每个正例为真,对于每个反例为假。评估函数衡量给定表达式在训练集上的错误率,初始状态可以是随机生成的表达式,例如 (shape=circle)。
搜索运算符有多种选择,比如添加合取(conjunction),如将 (shape=circle) 替换为 [(shape=circle) AND (filling-shade=dar
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



