类比是推动许多历史上最伟大科学进度的动力。当达尔文阅读马尔萨斯的《人口论》时,被经济和自然界中生存竞争的相似性触动,所以有了自然选择理论的诞生。
类比在机器学习中扮演重要性刚开始进展缓慢,它的第一个算法的化身出现在一份写于1951年的技术报告中,作者是两位伯克利的统计学家——伊夫琳.菲克斯和乔.霍奇斯。最近邻算法是我们类比学习法之旅的第一站,第二站是支持向量机,第三站也是最后一站,是成熟的类比推理法。
类推学派不像其他学派有很强的身份意识和共同理想,类推学派则更像研究人员松散的集合体,他们的统一依靠的是对于作为学习基础的、相似性判断的信任。
最近邻算法是人类有史以来发明的最简单、最快速的学习算法。实际上,甚至可以说,这是人类可以发明的最快速的算法。研究人员最初之所以对最近邻算法持怀疑态度,是因为它不确定能否找到两个概念之间的真正边界。但1967年,汤姆.科韦尔和彼得.哈特证明,在给定足够数据的情况下,最近邻算法最糟糕时易于出错的概率也仅仅是最佳可行分类器的两倍。
在低纬度条件下(比如二维或者三维),最近邻算法通常能够很好地起到作用。随着维度的上升,事情就会很快陷入崩溃状态。举个例子,符号学派的方法很擅长处理非相关属性:如果该属性不含任何关于等级的信息,那么它就不包含在决策树或者规则集当中。但让人感到无望的是,最近邻算法会受到非相关属性的迷惑,因为这些属性都能够促成例子之间的相似性。有了足够的相关属性,不相关维度中的偶然性会清除重要维度中有意义的相似性,而最近邻算法和随意猜测相比也好不到哪里。
最近邻算法的基础是找到相似物体,而在高维度情况下,相似性的概念就会无效。超空间就像过渡区域。在三维空间里的直觉不再适用,怪异离奇的事开始发生。
另一个让人不安的例子发生在正态分布,又名钟形曲线。正态分布认为,数据本质上就落在一个点上(正态分布的平均值),但其周围也会有模糊的东西(由标准差给出)。在超空间中不是这样的,在高纬度正态分布中,你比较有可能得到远离而不是接近平均值的样本。超空间中的钟形曲线看起来更像甜甜圈,而不像钟。当最近邻算法走进这个颠倒的世界时,它会变得非常困惑。所有的例子看起来都一样,同时因为它们距离彼此太远,无法做出有用的预测。
实际上,没有哪种

类比推理在科学进步中起着关键作用,尤其在机器学习中。本文介绍了最近邻算法,它是最简单、快速的学习算法之一,但易受高维空间中维数灾难的影响。支持向量机(SVM)作为另一种基于相似性的算法,通过找到关键例子(支持向量)来确定分类边界,解决了某些问题。尽管存在挑战,类比学习在认知科学和机器学习领域中仍占有重要地位。
最低0.47元/天 解锁文章
673

被折叠的 条评论
为什么被折叠?



