异常检测算法

最新推荐文章于 2025-07-07 22:33:10 发布

原创

最新推荐文章于 2025-07-07 22:33:10 发布 · 1.4w 阅读

·

5

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #异常检测

本文介绍了异常检测算法的基本思想和应用，强调了其与监督学习的区别。通过详细步骤，包括正态分布拟合、计算样本联合概率密度、寻找最优阈值以及实际应用，阐述了如何在计算机监控数据上进行异常检测。完整Python3代码可供参考。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

异常检测(Anomaly Detection)是为了发现运维中偏离正常值的异常数据。

异常检测算法的基本思想是：用正常的数据去训练模型，得到阈值，然后去判断新的数据 $X_{test}$ 是否异常。

异常检测如今被广泛应用于：欺诈用户检测，制造业异常检测，计算机监控等！

在详细介绍异常检验算法之前，需要了解异常检测和监督学习的不同：

假设一个二分类问题，普通的监督学习，训练集中两种类别 y1 和 y2 的数量通常是一样、或者相近的。所以通过 (x1, y1) 和 (x2, y2) 可以训练出一个合理的阈值去进行二分类。

但是许多情况下，数据集会存在Mis_Classfication的情况，即各类别样本数据量不均匀。比如异常检测通常都是正常数据（即x1和y1的数据），很少有异常数据（即x2和y2的数据），所以没法用一般监督学习的思想去解决异常检测问题。

所以异常检测算法通常只训练正常数据！

异常检测算法详解：

之后我在算法里所用的数据集Data.mat，是计算机的监控数据，主要包含两个特征Latency(延迟)和Throughput(吞吐量)。Data.mat中包含3个key：X，Xval，Yval。X是训练数据；Xval是验证集；Yval中的数据均为01，对应Xval中的数据是否异常，异常为1，正常为0。

数据集链接地址：https://pan.baidu.com/s/18aC3a6hDX_DmlrAxKMuf6A

1、用正态分布拟合训练集

如果一个数据集服从正态分布，那我们有理由相信，该数据集是符合事物常态的。所以对于数据集，我们要先判断它是否符合正态分布；如果不符合，可以采用 $log(x)$ 或者 $x^n$ 的方法，将原数据变为正态分布。

对于上述的Data.mat数据集，将X的概率密度函数图画出来为：

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄8年

11
原创

7
点赞

14
收藏

6
粉丝

关注

私信

热门文章

分类专栏

算法 9篇
机器学习 2篇

上一篇：: 返回第k个排列

下一篇：: 到达终点数字

最新评论

异常检测算法
regou99: 请问训练集在上述算法中是否只用于判定数据集是否符合正态分布？
异常检测算法
DiggerWang 回复倩七～: 如果你设的区间是1至100，如果跑出来的epsilon=100，那么有可能epsilon没达到最优，因为被区间限定死了，那么应该增大100，就是所谓的右区间。
异常检测算法
倩七～: 如果跑出来的最优epsilon为上确界，则应该增加右区间；如果跑出来的epsilon为下确界，则应该减少左区间。右区间指的是哪？
异常检测算法
xuexiaoxiaohu: 谢谢作者，想问一下怎么画Data.mat数据集X的概率密度函数图
异常检测算法
DiggerWang 回复小君zero: p_x[j] > i 代表算法判断的正常值(positive)；如果 validation_set_y[j, 0] == 1 代表真实是异常值(false)，所以是fp +1。以此类推，所以没有错。

大家在看

最新文章

目录

展开全部

收起

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。