文章标题为《Robust parameter estimation with a small bias against
heavy contamination》(可以抗重污染数据的有小偏差的稳健参数估计),是日本统计数学研究所Hironori Fujisawa和 Shinto Eguchi于2008年发表在《Journal of Multivariate Analysis》的文章。
该文章主要介绍了一种新的有小偏差的稳健参数估计的方法,该估计是基于γ\gammaγ交叉熵得出的,并且求得的估计具有较好的性质,在数据污染较为严重的情况下,估计值仍然较为准确。
本文只是介绍这篇文章的方法与思想,不阐述证明相关的内容。可能存在理解不准确的地方,欢迎指正。
稳健的参数估计方法中,有一类方法在进行参数估计时,需要考虑密度权值(density power weight),密度权值可以表示为:f(x)γf(x)^{\gamma}f(x)γ,其中f(x)f(x)f(x)为密度函数,γ\gammaγ为正常数。并且,当xxx为异常值时,f(x)f(x)f(x)会很小。
稳健的参数估计
f(x)f(x)f(x) 为潜在的概率密度函数(就是正常样本的概率密度函数,但是未知);
δ(x)\delta (x)δ(x) 为与异常值有关的密度函数;
g(x)g(x)g(x)为污染后的样本的密度函数;
且假设:g(x)=(1−ϵ)f(x)+ϵδ(x)g(x) = (1-\epsilon)f(x) +\epsilon \delta(x)g(x)=(1−ϵ)f(x)+ϵδ(x), ϵ\epsilonϵ为样本被污染的比例。
fθ(x)f_{\theta}(x)fθ(x)为参数密度函数(就是假设g(x)g(x)g(x)形式已知,含有未知参数θ\thetaθ);
设θ^\hat{\theta}θ^是根据独立同分布(都服从ggg分布)的样本x1,...,xnx_1,... ,x_nx1,...,xn得到的估计值;
那么:
- 如果样本中没有异常值,就有g(x)=f(x)g(x) = f(x)g(x)=f(x),我们进行一般的参数估计,目的是使得fθ^(x)f_{\hat\theta}(x)fθ^

文章介绍了Hironori Fujisawa和Shinto Eguchi于2008年发表的一篇关于稳健参数估计的论文,提出了基于γ交叉熵的估计方法,能在数据严重污染的情况下保持准确性。该方法利用γ散度和密度权值来处理异常值,通过迭代算法求解优化问题,确保估计的偏差很小。
最低0.47元/天 解锁文章
4150

被折叠的 条评论
为什么被折叠?



