R z-score 方法检测异常值

最新推荐文章于 2025-05-04 22:50:05 发布

原创最新推荐文章于 2025-05-04 22:50:05 发布 · 8.8k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#r语言 #机器学习 #z-score

R语言专栏收录该内容

69 篇文章

订阅专栏

本文探讨了z-score在数据异常检测中的关键作用，通过R语言实例展示了如何计算z-score并运用3σ原则来识别数值型数据集中的异常值。了解了何时删除异常值及其实验处理策略。

z-score 反应数值相对均值偏离多少标准差，本文利用z-score检测异常值。

z-score

z-score 的计算公示为：

z = (X – μ) / σ

X 表示单个原始数据值
μ 表示总体均值
σ 表示总体标准差

我们可以定义异常检测标准：如果z-score 小于 -3或 z-score 大于 3。

异常值 = 观测值的z-score >3 或者观测值的z-score <-3

准备数据

library(tibble)
library(dplyr)

#make this example reproducible 
set.seed(0)

#create data frame with three columns A', 'B', 'C' 
df <- tibble(A=rnorm(1000, mean=10, sd=3),
                 B=rnorm(1000, mean=20, sd=3),
                 C=rnorm(1000, mean=30, sd=3))

#view first six rows of data frame
head(df)

# A tibble: 6 x 3
#       A     B     C
#   <dbl> <dbl> <dbl>
# 1  8.12  23.4  27.3
# 2 10.6   23.3  24.2
# 3  7.49  17.4  34.9
# 4 14.8   20.6  31.6
# 5 11.0   20.2  29.8
# 6  7.54  15.0  32.1

我们可以使用z-score或四分位距方法检测异常值。本文我们讲解z-score方法。

z-score方法


# 定义z-score计算函数
zs <-function(x){
  (abs(x-mean(x))/sd(x))
}

# 按列计算每个元素的z-score
df %>% mutate(across(c(1:3), zs) ) -> z_scores
head(z_scores)
# A tibble: 6 x 3
#       A      B      C
#   <dbl>  <dbl>  <dbl>
# 1 1.28  0.254  0.394 
# 2 0.311 1.80   0.0589
# 3 1.35  0.128  0.0811
# 4 1.29  1.32   0.388 
# 5 0.431 1.40   0.445 
# 6 1.53  0.0433 0.703 

# 选择z_scores数据中三个元素值中的任何一个都不大于3的记录
z_scores %>% filter(!(A >3 | B >3 | C>3)) -> no_outliers
dim(no_outliers)  
# 994行数据正常，其他6行有异常值
# [1] 994   3

z_scores %>% filter((A >3 | B >3 | C>3)) -> outliers
# 查看异常值数据
outliers

# # A tibble: 6 x 3
#       A     B      C
#   <dbl> <dbl>  <dbl>
# 1 0.634 0.352 3.10  
# 2 3.29  0.801 0.881 
# 3 1.96  1.07  3.25  
# 4 1.77  1.32  3.07  
# 5 3.07  0.705 1.30  
# 6 3.23  0.923 0.0999

何时删除异常值

当发现异常值时，首先要验证是否人为错误，毕竟人工操作错误在所难免。如果确定是人为错误，我们可以替换为均值或中位数。

当该值确实不是人为造成的异常值。如果它对整体分析有重大影响，我们可以选择删除它，但要确保在最终报告或分析中提及删除了异常值。当然也有可能有了重大发现😊。

5 条评论

weixin_52445634 2022.10.26
[quote]如果z-score 小于 -3或 z-score 大于 3[/quote]请问一下，异常值为什么取z-score 小于 -3或 z-score 大于 3啊？Z分数归一化后有没有正常的范围啊
- weixin_52445634回复梦想画家 2022.10.28
  好的，谢谢哦
- 梦想画家回复weixin_52445634 2022.10.27
  标准差是分母，样本值-平均值和标准差的比不就是几倍标准差吗，可以结合标准差的定义理解下
- weixin_52445634回复梦想画家 2022.10.27
  三个标准差是怎么得到的啊？哪三个标准差呀？晕~~~[face]emoji:058.png[/face]
- 梦想画家回复weixin_52445634 2022.10.27
  三个标准差之外的数据作为参考