65、误检率控制下的异常值检测

误检率控制下的异常值检测

在数据处理和分析中,异常值检测是一项至关重要的任务。传统上,人们更关注控制错误发现率(FDR),但在许多情况下,误检率(FOR)控制同样值得深入研究。本文将介绍在误检率控制下的异常值检测方法,包括理论推导、经验规则以及实验验证。

1. 基本概念

在进行异常值检测时,我们使用特定的得分统计量 $\hat{s}$ 来检验每个观测值是否为异常值。原假设 $H_{0,i}$ 表示第 $i$ 个观测值 $X_i$ 是内点,备择假设 $H_{1,i}$ 表示第 $i$ 个观测值是异常值。通常,$\hat{s}$ 的较大值表示异常值。

当检验统计量的累积分布函数(CDF)$F$ 连续时,在原假设为真的情况下,对应的 $p$ 值(即 $1 - F(X_i)$)在 $[0, 1]$ 上服从均匀分布。这一性质是控制族系误差率(FWER)和错误发现率(FDR)的基础。

假设我们有 $n$ 个观测值,它们是内点(概率为 $\pi$)和异常值(概率为 $1 - \pi$)的混合分布。对应的 $p$ 值可以表示为:
[p_i \sim \pi U + (1 - \pi)F_1, \quad i = 1, \ldots, n]
其中,$U$ 是 $U[0, 1]$ 均匀分布的分布函数,$F_1$ 是异常值的 $p$ 值的累积分布函数。

我们定义一些决策规则相关的变量:
- $R$:拒绝的原假设的数量。
- $V$:错误拒绝的原假设的数量。
- $Z$:错误未拒绝的备择假设的数量。
- $N_R$:未拒绝的项目数量。

误检率(FOR)定义为:
[FOR =

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值