机器学习系统类型、挑战与应对策略
一、在线学习与数据质量问题
在线学习面临着一个重大挑战,即如果向系统输入不良数据,系统的性能会逐渐下降。在实时系统中,客户很容易察觉到这种性能下降。不良数据可能源于机器人故障的传感器,或者有人为了在搜索引擎结果中获得高排名而进行的垃圾信息干扰。
为降低这种风险,需要密切监控系统。一旦检测到性能下降,应立即停止学习,可能的话恢复到之前正常工作的状态。同时,也需要监控输入数据,对异常数据做出反应,例如使用异常检测算法。
二、基于实例学习与基于模型学习
机器学习系统可以根据泛化方式进行分类,主要有基于实例学习和基于模型学习两种方法。
(一)基于实例学习
最简单的学习方式之一是死记硬背。以垃圾邮件过滤器为例,如果只是标记与用户已标记的垃圾邮件完全相同的邮件,这虽然不是最差的解决方案,但肯定不是最好的。更好的做法是标记与已知垃圾邮件非常相似的邮件,这就需要一种衡量两封邮件相似度的方法,比如计算它们共同拥有的单词数量。如果一封邮件与已知垃圾邮件有很多共同单词,就将其标记为垃圾邮件。
基于实例学习就是系统记住这些示例,然后通过相似度度量将新案例与已学习的示例(或其子集)进行比较,从而实现泛化。例如,在某个示例中,新实例会被分类为三角形,因为大多数最相似的实例属于该类别。
(二)基于模型学习
另一种从一组示例中进行泛化的方法是构建这些示例的模型,然后使用该模型进行预测,这就是基于模型学习。
以研究金钱是否能让人幸福为例,我们可以从经合组织(OECD)网站下载“美好生活指数”数据,从国际货币基金组织(IMF)网站下
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



