异常检测——基于统计学的方法
异常检测-pyod
异常检测用pyod进行分析
PyOD是一个Python库,具有一组全面的可扩展的最新技术(SOTA)算法,用于检测多元数据中的偏远数据点。此任务通常称为异常值检测或异常检测。
“异常值”的定义可能是主观的。所谓的“异常”取决于应用程序,但通常可能表示数据错误,欺诈或犯罪活动。
专用的离群值检测算法提供了一种方法,可以对大量未标记的数据进行可靠的模式识别。
主要是可以让机器学会自己不知道的知识,运用论语中的一句话:知之为知之,不知为不知,是知也。
相关代码示例
from pyod.utils.data import generate_data
import numpy as np
X_train, y_train, X_test, y_test = \
generate_data(n_train=200,
n_test=100,
n_features=5,
contamination=0.1,
random_state=3)
X_train = X_train * np.random.uniform(0, 1, size=X_train.shape)
X_test = X_test * np.random.uniform(0,1, size=X_test.shape)
ABOD
from pyod.models.abod import ABOD
clf_name = 'ABOD'
clf = ABOD()
clf.fit(X_train)
test_scores = clf.decision_function(X_test)
from pyod.utils.utility import precision_n_scores
from sklearn.metrics import roc_auc_score
roc = round(roc_auc_score(y_test, test_scores), ndigits=4)
prn = round(precision_n_scores(y_test, test_scores), ndigits=4)
print(f'{clf_name} ROC:{roc}, precision @ rank n:{prn}')
训练和评估COPOD
from pyod.models.copod import COPOD
clf_name = 'COPOD'
clf = COPOD()
clf.fit(X_train)
test_scores = clf.decision_function(X_test)
from pyod.utils.utility import precision_n_scores
from sklearn.metrics import roc_auc_score
roc = round(roc_auc_score(y_test, test_scores), ndigits=4)
prn = round(precision_n_scores(y_test, test_scores), ndigits=4)
print(f'{clf_name} ROC:{roc}, precision @ rank n:{prn}')