9、非参数方法:密度估计、分类与回归的实用指南

非参数方法:密度估计、分类与回归的实用指南

1. 引言

在传统的参数和半参数方法中,我们通常假设数据来自已知形式的一个或多个概率分布。然而,当无法对输入密度做出此类假设时,非参数方法就派上用场了。非参数方法主要用于密度估计、分类和回归,其核心假设是相似的输入会产生相似的输出。

1.1 参数方法与非参数方法对比

参数方法假定一个在整个输入空间都有效的模型。例如,在回归中假设线性模型,意味着对于任何输入,输出都是输入的线性函数;在分类中假设正态密度,则认为该类的所有样本都来自同一密度。参数方法的优势在于将估计概率密度函数、判别函数或回归函数的问题简化为估计少量参数的值,但缺点是这种假设并非总是成立,若不成立可能会导致较大误差。

非参数方法则不同,它不假设潜在密度的先验参数形式,模型复杂度取决于训练集的大小或数据中固有的问题复杂度。在机器学习中,非参数方法也被称为基于实例或基于内存的学习算法,因为它们将训练实例存储在查找表中,并通过这些实例进行插值。这种方法需要 $O(N)$ 的内存来存储所有训练实例,并且查找相似实例需要 $O(N)$ 的计算量,因此也被称为懒惰学习算法。

2. 非参数密度估计

2.1 基本概念

假设样本 $X = {x_t}_{t = 1}^N$ 独立地从某个未知概率密度 $p(\cdot)$ 中抽取,$\hat{p}(\cdot)$ 是 $p(\cdot)$ 的估计器。我们先从单变量情况开始,其中 $x_t$ 是标量,随后推广到多维情况。

非参数累积分布函数 $F(x)$ 在点 $x$ 处的估计是样本点小于或等于 $x$ 的比例:
$$\hat

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值