非参数方法:密度估计、分类与回归的实用指南
1. 引言
在传统的参数和半参数方法中,我们通常假设数据来自已知形式的一个或多个概率分布。然而,当无法对输入密度做出此类假设时,非参数方法就派上用场了。非参数方法主要用于密度估计、分类和回归,其核心假设是相似的输入会产生相似的输出。
1.1 参数方法与非参数方法对比
参数方法假定一个在整个输入空间都有效的模型。例如,在回归中假设线性模型,意味着对于任何输入,输出都是输入的线性函数;在分类中假设正态密度,则认为该类的所有样本都来自同一密度。参数方法的优势在于将估计概率密度函数、判别函数或回归函数的问题简化为估计少量参数的值,但缺点是这种假设并非总是成立,若不成立可能会导致较大误差。
非参数方法则不同,它不假设潜在密度的先验参数形式,模型复杂度取决于训练集的大小或数据中固有的问题复杂度。在机器学习中,非参数方法也被称为基于实例或基于内存的学习算法,因为它们将训练实例存储在查找表中,并通过这些实例进行插值。这种方法需要 $O(N)$ 的内存来存储所有训练实例,并且查找相似实例需要 $O(N)$ 的计算量,因此也被称为懒惰学习算法。
2. 非参数密度估计
2.1 基本概念
假设样本 $X = {x_t}_{t = 1}^N$ 独立地从某个未知概率密度 $p(\cdot)$ 中抽取,$\hat{p}(\cdot)$ 是 $p(\cdot)$ 的估计器。我们先从单变量情况开始,其中 $x_t$ 是标量,随后推广到多维情况。
非参数累积分布函数 $F(x)$ 在点 $x$ 处的估计是样本点小于或等于 $x$ 的比例:
$$\hat
超级会员免费看
订阅专栏 解锁全文
261

被折叠的 条评论
为什么被折叠?



