4、机器学习中的实例学习与模型学习及挑战

机器学习中的实例学习与模型学习及挑战

1. 机器学习系统的泛化分类

机器学习系统的一个重要分类方式是依据其泛化能力。大多数机器学习任务旨在进行预测,这意味着给定一定数量的训练示例后,系统需要能够对未见过的示例做出良好的预测,也就是实现泛化。仅仅在训练数据上有良好的性能是不够的,真正的目标是在新实例上也能表现出色。泛化主要有两种方法:基于实例的学习和基于模型的学习。

1.1 基于实例的学习

最简单的学习形式可能就是死记硬背。以创建垃圾邮件过滤器为例,如果采用这种方式,它只会标记那些与用户已标记的垃圾邮件完全相同的邮件。这并非最差的解决方案,但肯定不是最好的。

更好的做法是,垃圾邮件过滤器不仅标记与已知垃圾邮件完全相同的邮件,还标记那些与之非常相似的邮件。这就需要一个衡量两封邮件相似度的方法,一个非常基础的方法是计算它们共同拥有的单词数量。如果一封邮件与已知垃圾邮件有很多共同的单词,系统就会将其标记为垃圾邮件。

这就是基于实例的学习:系统牢记示例,然后通过使用相似度度量将新案例与已学习的示例(或其中的一个子集)进行比较,从而实现对新案例的泛化。例如,在图 1 - 16 中,新实例会被分类为三角形,因为大多数最相似的实例都属于该类别。

1.2 基于模型的学习和典型的机器学习工作流程

另一种从一组示例中进行泛化的方法是构建这些示例的模型,然后使用该模型进行预测,这被称为基于模型的学习。

假设你想了解金钱是否会让人幸福,你可以从经合组织(OECD)的网站下载《美好生活指数》数据,以及世界银行关于人均国内生产总值(GDP)的统计数据。然后将这些表格合并,并按人均 GDP 进行排序。以下

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值