机器学习基础:简单任务与爬山搜索算法
1. 机器学习的引入
在日常生活中,我们很难用精确的语言描述母亲的面容,让朋友在超市中认出她。但如果给朋友看几张母亲的照片,朋友就能立刻识别出来。这体现了示例在信息传达中的强大作用,而机器学习正是希望借助这种方式,通过示例让机器学习并掌握知识。
机器学习的目标是让计算机将示例转化为知识,这涉及到众多算法和技术。我们从一个简单的机器学习任务入手,将其构建为一个搜索问题,并引入爬山搜索算法,这不仅是解决机器学习任务的初步尝试,也会在后续的一些辅助问题中发挥作用。
2. 训练集与分类器
2.1 训练示例集
以“Johnny对派的喜好”为例,有6个Johnny喜欢的派和6个他不喜欢的派,这些正例和反例构成了训练集。机器需要从这个训练集中归纳出一个分类器,用于将未来的派分为喜欢(正类)和不喜欢(负类)两类。
实际上,分类问题的类别数量可以更多。比如判断风景照片拍摄季节的分类器有春、夏、秋、冬4个类别;识别iPad上手写字符的软件至少需要36个类别(26个字母和10个数字);文档分类系统则能识别成百上千个不同主题。这里选择两类问题主要是为了简化。
2.2 属性向量
为了将训练示例传达给机器,我们使用属性来描述它们。在“派”的领域中,可以选择5个属性:形状(圆形、三角形、正方形)、 crust - size(薄或厚)、 crust - shade(白色、灰色、深色)、 filling - size(薄或厚)、 filling - shade(白色、灰色、深色)。
以下是12个训练示例以矩阵形式表示的属性值:
| 示例
超级会员免费看
订阅专栏 解锁全文
17

被折叠的 条评论
为什么被折叠?



