机器学习中的实例学习与模型学习及挑战
1. 机器学习系统的泛化分类
机器学习系统的一个重要分类方式是依据其泛化能力。大多数机器学习任务旨在进行预测,这意味着给定一定数量的训练示例后,系统需要能够对未见过的示例做出良好的预测,也就是实现泛化。仅仅在训练数据上有良好的性能是不够的,真正的目标是在新实例上也能表现出色。泛化主要有两种方法:基于实例的学习和基于模型的学习。
1.1 基于实例的学习
最简单的学习形式可能就是死记硬背。以创建垃圾邮件过滤器为例,如果采用这种方式,它只会标记那些与用户已标记的垃圾邮件完全相同的邮件。这并非最差的解决方案,但肯定不是最好的。
更好的做法是,垃圾邮件过滤器不仅标记与已知垃圾邮件完全相同的邮件,还标记那些与之非常相似的邮件。这就需要一个衡量两封邮件相似度的方法,一个非常基础的方法是计算它们共同拥有的单词数量。如果一封邮件与已知垃圾邮件有很多共同的单词,系统就会将其标记为垃圾邮件。
这就是基于实例的学习:系统牢记示例,然后通过使用相似度度量将新案例与已学习的示例(或其中的一个子集)进行比较,从而实现对新案例的泛化。例如,在图 1 - 16 中,新实例会被分类为三角形,因为大多数最相似的实例都属于该类别。
1.2 基于模型的学习和典型的机器学习工作流程
另一种从一组示例中进行泛化的方法是构建这些示例的模型,然后使用该模型进行预测,这被称为基于模型的学习。
假设你想了解金钱是否会让人幸福,你可以从经合组织(OECD)的网站下载《美好生活指数》数据,以及世界银行关于人均国内生产总值(GDP)的统计数据。然后将这些表格合并,并按人均 GDP 进行排序。以下
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



