异常检测方法详解
1. 单变量异常检测
1.1 Z - 分数与异常检测
Z - 分数是一种标准化的度量,用于衡量一个观测值与均值的距离,以标准差为单位。具体来说:
- Z - 分数为 0 表示观测值等于均值。
- Z - 分数为 1 表示观测值比均值高 1 个标准差。
- Z - 分数为 - 2.5 表示观测值比均值低 2.5 个标准差。
在某些情况下,通常将 Z - 分数大于 2 或小于 - 2 的观测值视为异常值。
1.2 使用参数方法检测异常值
下面通过一个练习来展示如何使用参数方法检测异常值,我们将使用 rivers 数据集:
# 加载数据并计算标准差
data(rivers)
standard_deviation<-sd(rivers)
# 计算每个观测值的 Z - 分数
z_scores<-(rivers - mean(rivers)) / standard_deviation
# 找出 Z - 分数大于 2 或小于 - 2 的异常值
outliers<-rivers[which(z_scores > 2 | z_scores < (-2))]
outliers
输出结果为:
[1] 2348 3710 2315 2533 1885 1770
这里有 6 条河流被分类为异常值,它们的 Z - 分数都高于 2。需要注意的是,对于“异常值”并没有严格的定
异常检测方法全解析
超级会员免费看
订阅专栏 解锁全文
4647

被折叠的 条评论
为什么被折叠?



