数据科学导论 python语言实现
一、单变量异常检测(一次观测一个变量)
1.1 Z-scores 得分绝对值超过3的
1.2 箱线图
import numpy as np
from sklearn import preprocessing
normailized_data = preprocessing.StandardScaler().fit_transform(boston.data[:,continuous_variables])
outlier_rows,outlier_columns = np.where(np.abs(normalized_data)>3)
单变量方法不能检测哪些不是极端值的异常值,然而,如果它发现两个或多个变量的组合出现不正常的值,所涉及的不是极端值的概率会大,因此多变量检测应运而生


二、多变量异常检测(同时考虑多个变量)
2.1 covariance.EllipticEnvelope类:
假设全部数据可以表示成基本的多元高斯分布,.EllipticEnvelope是一个试图

本文深入探讨了异常检测技术,从单变量的Z-scores和箱线图方法,过渡到多变量异常检测,如EllipticEnvelope和OneClassSVM。这些方法在处理数据科学问题时,能够识别不同类型的异常值。文章强调了数据标准化的重要性,并提到了PCA和其他降维技术在异常检测中的应用。
最低0.47元/天 解锁文章
4205

被折叠的 条评论
为什么被折叠?



