单类问题:分位数估计与新奇性检测
单类问题解决方案概述
在单类问题中,如分位数估计和新奇性检测,存在不同的解决方案。以一个单类玩具问题为例,有两种不同的解法。左边的图展示了一个较为复杂的解决方案,它能捕获所有训练点,估计区域的经验概率$P_{m}^{emp}$等于 1,但在二维空间中的体积较小。右边的解决方案则遗漏了一个训练点,没有捕获所有的$P_{m}^{emp}$,不过由于它“更简单”,有可能捕获更多生成数据的真实潜在分布$P$。这里用函数$\varphi$来衡量估计区域的简单性,在后续算法中,$\varphi$是一个支持向量(SV)风格的正则化器。
相关研究
Tsybakov 研究了基于$C_{\delta}(\lambda)$的分段多项式逼近的估计器,表明它在某些密度类中达到了渐近极小极大率。Polonik 研究了用$C_{m}^{\delta}(\lambda)$估计$C_{\delta}(\lambda)$,并根据$\mathcal{A}$的各种丰富度度量导出了渐近收敛率。更多关于最小体积估计器的信息可在相关研究中找到。
算法核心思路
考虑未标记的训练数据$X = {x_1, \cdots, x_m} \subseteq \mathcal{X}$,其中$m$是观测数量,$\mathcal{X}$可看作$\mathbb{R}^N$的一个紧凑子集。引入特征映射$\Phi: \mathcal{X} \to \mathcal{H}$,使得$\Phi$图像中的点积可通过简单核计算,如高斯核$k(x, x’) = e^{-\frac{|x - x’|^2}{c}}$。
算法目标是返回一个函数$f$,它在一个“小”
超级会员免费看
订阅专栏 解锁全文
1403

被折叠的 条评论
为什么被折叠?



