终极算法——第七章:类推学派:像什么就是什么

本文探讨了类比推理在科学进步中的作用,重点介绍了机器学习中的最近邻算法和支持向量机。最近邻算法因其简单、快速的学习特性被称为懒惰学习,但也存在过拟合问题。支持向量机作为其替代者,能有效抵抗维数灾难,提供更可靠的分类边界。类比推理在跨越问题域的学习中展现出强大能力,是机器学习中不可或缺的一部分。

本文为阅读总结个人认为书里概念性的、对本人有帮助的内容,仅供参考。

类比式推动许多历史上最伟大科学进步的动力。

类比推理有着突出的知识谱系。亚里士多德在他的相似律中就表达了这一点:如果两个事物相似,其中的一个想法会出动另外一个想法。

最近邻算法,正如其名,是我i们类比学习算法之旅的第一站。第二站是支持向量机,这是世纪之交风靡机器学习领域的原理,但最近风头被深度学习掩盖。第三站也是最后一站,是成熟的类比推理法,几十年来是心理学和人工智能的重要组成部分,也是几十年来机器学习领域的主题背景。

在机器学习中,相似性是核心思想之一,而类推学派会以各种伪装的方式来保护它。

最近邻算法是人类有史以来发明的最简单、最快速的学习算法。

实际上,学习的整个风格(最近邻算法是其中的一种)有时会被人们称为“懒惰学习算法”,在这种情况下,这个术语并没有什么贬义。

懒惰学习算法会胜出的原因在于,和构建全局模型(例如决策树)相比,只要每次弄明白指定的点在哪里会较为简单。

构建局部模型而非全局模型的相同想法可以应用于分类之外的用途。

最近邻算法容易犯过拟合错误:如果数据点的等级是错误的,它会蔓延到整个城域当中。

目前,所有种类的算法都被用于为用户推荐项目,但加权k最近邻算法是第一个收到广泛运用的算法,而且打败它仍然很困难。

使最近邻算法更加有效的简单方法,就是删除所有被它们的近邻准确分类的例子。

1967年,汤姆·科威尔和彼得·哈特证明,在给定足够的数据的情况下,最近邻算法最糟糕时易于出错的概率是最佳可行分类器的两倍。

最近邻算法会受到非相关属性的迷惑,因为这些属性都是能够促成例子之间的相似性。

实际上,没有那种算法能够幸免于维数灾难。这是机器学习中,继过拟合之后,第二个最糟糕的问题。

在机器学习中,问题不仅仅在于计算成本——随着维数上升,变得越来越困难的是学习本身。

直到20世纪90年代,应用范围最广泛的类比学习算法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值