非参数方法:原理、应用与优化
1. 引言
在传统的参数和半参数方法中,我们通常假定数据是从已知形式的一个或多个概率分布中抽取的。然而,当无法对输入密度做出这样的假设时,非参数方法就派上了用场。非参数方法适用于密度估计、分类、异常检测和回归等场景,下面将详细介绍其原理、常见方法以及如何控制时间和空间复杂度。
1.1 参数方法与非参数方法的对比
参数方法在密度估计、分类或回归中,会假定一个在整个输入空间都有效的模型。例如在回归中假设线性模型,意味着对于任何输入,输出都是输入的线性函数;在分类中假设正态密度,则认为该类的所有示例都来自同一密度。参数方法的优势在于将估计概率密度函数、判别函数或回归函数的问题简化为估计少量参数的值。但缺点是这种假设并非总是成立,若不成立可能会导致较大的误差。
非参数估计仅假设相似的输入会有相似的输出,这是合理的,因为现实世界是平滑的,函数(如密度、判别或回归函数)变化缓慢。非参数算法通过合适的距离度量从训练集中找到相似的过往实例,并进行插值以得到正确的输出。不同的非参数方法在定义相似性或插值方式上有所不同。在参数模型中,所有训练实例都会影响最终的全局估计;而在非参数情况下,没有单一的全局模型,局部模型根据需要进行估计,仅受附近训练实例的影响。
1.2 非参数方法的特点
非参数方法不预先假设底层密度的参数形式,其复杂度取决于训练集的大小或数据中固有的问题复杂度。在机器学习文献中,非参数方法也被称为基于实例或基于内存的学习算法,因为它们将训练实例存储在查找表中并进行插值。这意味着需要存储所有训练实例,内存需求为O(N),并且给定输入时,查找相似实例的计算复杂度为O(N)。因此,非参数方法也被称
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



