19、非参数方法：原理、应用与优化-优快云博客

本文链接：https://blog.youkuaiyun.com/tequila/article/details/152510907

非参数方法：原理、应用与优化

1. 引言

在传统的参数和半参数方法中，我们通常假定数据是从已知形式的一个或多个概率分布中抽取的。然而，当无法对输入密度做出这样的假设时，非参数方法就派上了用场。非参数方法适用于密度估计、分类、异常检测和回归等场景，下面将详细介绍其原理、常见方法以及如何控制时间和空间复杂度。

1.1 参数方法与非参数方法的对比

参数方法在密度估计、分类或回归中，会假定一个在整个输入空间都有效的模型。例如在回归中假设线性模型，意味着对于任何输入，输出都是输入的线性函数；在分类中假设正态密度，则认为该类的所有示例都来自同一密度。参数方法的优势在于将估计概率密度函数、判别函数或回归函数的问题简化为估计少量参数的值。但缺点是这种假设并非总是成立，若不成立可能会导致较大的误差。

非参数估计仅假设相似的输入会有相似的输出，这是合理的，因为现实世界是平滑的，函数（如密度、判别或回归函数）变化缓慢。非参数算法通过合适的距离度量从训练集中找到相似的过往实例，并进行插值以得到正确的输出。不同的非参数方法在定义相似性或插值方式上有所不同。在参数模型中，所有训练实例都会影响最终的全局估计；而在非参数情况下，没有单一的全局模型，局部模型根据需要进行估计，仅受附近训练实例的影响。

1.2 非参数方法的特点

非参数方法不预先假设底层密度的参数形式，其复杂度取决于训练集的大小或数据中固有的问题复杂度。在机器学习文献中，非参数方法也被称为基于实例或基于内存的学习算法，因为它们将训练实例存储在查找表中并进行插值。这意味着需要存储所有训练实例，内存需求为O(N)，并且给定输入时，查找相似实例的计算复杂度为O(N)。因此，非参数方法也被称