非参数与半参数统计之核函数

本文介绍了核函数的本质及产生过程,通过经验分布函数近似替代未知分布函数,并给出了常见核函数如Epanechnikov核函数、Gaussian核函数等的表达式与图形。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

核函数的本质是什么

核函数的产生过程

众所周知,分布函数的导数是密度函数,即:
f ( x ) = F ′ ( x ) = lim ⁡ h → 0 F ( x + h ) − F ( x − h ) 2 h f(x)=F'(x)=\lim_{h\rightarrow0}\frac{F(x+h)-F(x-h)}{2h} f(x)=F(x)=limh02hF(x+h)F(xh)
由于分布函数是未知的,所以用经验分布函数来近似代替分布函数,何为经验分布函数呢?下面给出其定义
定义: F n ( x ) = 1 n ∑ i = 1 n I ( X i ≤ x ) F_n(x)=\frac{1}{n}\sum_{i=1}^{n}I(X_{i}\leq x ) Fn(x)=n1i=1nI(Xix)
那么经验分布函数为何可以近似替代分布函数呢?
分布函数 F ( X ) = P ( X ≤ x ) F(X)=P(X\leq x) F(X)=P(Xx),所以通俗的理解就是经验分布函数是用频率来近似表示概率以此来近似替代分布函数。
于是: f n ( x ) = lim ⁡ h → 0 F n ( x + h ) − F n ( x − h ) 2 h f_n(x)=\lim_{h\rightarrow0}\frac{F_n(x+h)-F_n(x-h)}{2h} fn(x)=limh02hFn(x+h)Fn(xh)
根据经验分布函数的定义有
F n ( x + h ) = 1 n ∑ i = 1 n I ( X i ≤ x + h ) F_n(x+h)=\frac{1}{n}\sum_{i=1}^{n}I(X_{i}\leq x+h ) Fn(x+h)=n1i=1nI(Xix+h)
F n ( x − h ) = 1 n ∑ i = 1 n I ( X i ≤ x − h ) F_n(x-h)=\frac{1}{n}\sum_{i=1}^{n}I(X_{i}\leq x-h ) Fn(xh)=n1i=1nI(Xixh)
所以有
F n ( x + h ) − F n ( x − h ) = 1 n ∑ i = 1 n I ( − 1 ≤ x i − X h ≤ 1 ) F_n(x+h)-F_n(x-h)=\frac{1}{n}\sum_{i=1}^{n}I(-1\leq \frac{x_{i}-X}{h}\leq 1 ) Fn(x+h)Fn(xh)=n1i=1nI(1hxiX1)
所以
f n ( x ) = 1 n h ∑ i = 1 n I ( ∣ x i − X h ∣ ≤ 1 ) f_n(x)=\frac{1}{nh}\sum_{i=1}^{n}I(| \frac{x_{i}-X}{h}|\leq 1 ) fn(x)=nh1i=1nI(hxiX1)
这里,我们先假设 k ( u ) = 1 2 I ( ∣ u ∣ ≤ 1 ) k(u)=\frac{1}{2}I(|u|\leq 1) k(u)=21I(u1),因此有
k ( x i − X h ) = 1 2 I ( ∣ x i − X h ∣ ≤ 1 ) k(\frac{x_{i}-X}{h})=\frac{1}{2}I(| \frac{x_{i}-X}{h}|\leq 1 ) k(hxiX)=21I(hxiX1)
于是, f n ( x ) f_n(x) fn(x)又可以进一步写成
f n ( x ) = 1 n ∑ i = 1 n 1 h k ( x i − X h ) f_n(x)=\frac{1}{n}\sum_{i=1}^{n}\frac{1}{h}k(\frac{x_{i}-X}{h}) fn(x)=n1i=1nh1k(hxiX)
在这里,我们将 k ( x i − X h ) k(\frac{x_{i}-X}{h}) k(hxiX)称为核函数。
上述的核函数,我们将其称为均匀核函数,因为它只有2种结果,在示性函数的区间中为 1 2 \frac{1}{2} 21,否则就是0。
这样做显然是不合适的,因为在实际的估计中,若 X i X_{i} Xi越接近 x x x,核函数应该得到一个较大的、趋近于1的值,若 X i X_{i} Xi距离 x x x相对较远,则核函数应该得到一个较小的、趋近于0的值。(这也是我们通常将核函数视为一个权重的原因)
于是,天才的数学家、统计学家们便发明出了一系列这样的神奇的核函数,不妨来一起感受一下。
常见的核函数及其表达式和图像详见下一小节 常见的核函数

常见的核函数

除上述提到的均匀核函数外,常用的核函数还有
1.Triangle 核函数: k ( u ) = ( 1 − ∣ u ∣ ) I ( ∣ u ∣ ≤ 1 ) k(u)=(1-|u|)I(|u|\leq 1) k(u)=(1u)I(u1)
2.Epanechnikov 核函数: k ( u ) = 3 4 ( 1 − u 2 ) I ( ∣ u ∣ ≤ 1 ) k(u)=\frac{3}{4}(1-u^2)I(|u|\leq 1) k(u)=43(1u2)I(u1)
3.Quartic 核函数: k ( u ) = 15 16 ( 1 − u 2 ) 2 I ( ∣ u ∣ ≤ 1 ) k(u)=\frac{15}{16}(1-u^2)^2I(|u|\leq 1) k(u)=1615(1u2)2I(u1)
4.Triweight 核函数: k ( u ) = 35 32 ( 1 − u 2 ) 3 I ( ∣ u ∣ ≤ 1 ) k(u)=\frac{35}{32}(1-u^2)^3I(|u|\leq 1) k(u)=3235(1u2)3I(u1)
5.Gaussian 核函数: k ( u ) = 1 2 π e x p ( − 1 2 u 2 ) k(u)=\frac{1}{\sqrt{2\pi}}exp(-\frac{1}{2}u^2) k(u)=2π 1exp(21u2)
6.Cosine 核函数: k ( u ) = π 4 c o s ( π u 2 ) I ( ∣ u ∣ ≤ 1 ) k(u)=\frac{\pi}{4}cos(\frac{\pi u}{2})I(|u|\leq 1) k(u)=4πcos(2πu)I(u1).

其图像如下:
在这里插入图片描述

[1]: 孙志华,尹俊平等 非参数与半参数统计[M] 清华大学出版社.2016.

### Epanechnikov核函数的定义 Epanechnikov核函数是一种常用的核函数,具有简洁的形式和良好的统计特性。它的数学表达形式如下: \[ K(u) = \begin{cases} \frac{3}{4}(1-u^2), & |u| \leq 1 \\ 0, & |u| > 1 \end{cases} \] 其中 \( u = \frac{x - x_i}{h} \),\( h \) 是带宽参数[^4]。 这种核函数的特点在于其支撑域有限(即当 \( |u| > 1 \) 时取值为零),并且在支撑域内呈抛物线形状下降。这一特点使其成为许多非参数估计方法中的首选之一。 --- ### Epanechnikov核函数的实现 以下是基于Python语言实现Epanechnikov核函数的一个简单示例代码: ```python import numpy as np def epanech_kernel(u): """ 计算Epanechnikov核函数值 参数: u : float 或 array-like, 输入变量 返回: kernel_value : float 或 array-like, 核函数值 """ condition = np.abs(u) <= 1 kernel_value = np.where(condition, (3 / 4) * (1 - u ** 2), 0) return kernel_value # 测试 test_points = [-2, -1, 0, 0.5, 1, 1.5] print(epanech_kernel(np.array(test_points))) ``` 此代码实现了对任意输入点计算对应的Epanechnikov核函数值的功能,并利用`numpy`库处理数组操作以便于高效批量计算。 --- ### Epanechnikov核函数的应用 #### 非参数密度估计 Epanechnikov核函数广泛应用于Kernel Density Estimation (KDE)[^1] 中作为核心组件。通过该方法可近似未知的概率密度分布。给定一组观测数据 \( X_1, ..., X_n \),KDE 的公式表示为: \[ \hat{f}_h(x) = \frac{1}{nh}\sum_{i=1}^{n} K\left(\frac{x-X_i}{h}\right), \] 其中 \( K \) 即为所选核函数(此处假设为Epanechnikov核)。这种方法无需事先假定总体服从某种特定分布模型即可完成概率密度建模工作。 #### 支持向量机(SVMs) 尽管SVM更常采用径向基(RBF)或其他类型的核函数,但在某些场景下也可以考虑使用Epanechnikov核来构建分类边界或者回归曲线拟合方案[^2]。 #### 数据降噪平滑化 由于具备局部加权平均效应,因此还可以借助此类技术去除噪声干扰项从而获得更加清晰的数据趋势图象展示效果[^4]。 --- ### KS检验优化核函数选择 为了找到最适合当前任务需求的最佳组合配置——包括但不限于具体的核种类及其超参设定等问题,则可以通过执行Kolmogorov-Smirnov(KS)test来进行评估对比分析过程[^5] 。最终选取能使两者间差异最小化的选项作为正式解决方案采纳实施下去。 ---
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值