
anomaly detection
bingbingbiu
冷冷的傻乎乎的菜鸟
展开
-
利用线性回归模型检测异常
利用线性回归模型检测异常关键思想:真实值与模型预测值之间的差值可以用来衡量这个数据点是多么异常。检测步骤如下:将数据集分割为训练集(均为正常点)和测试集(包含异常点)利用训练集得到线性回归模型的参数和选择是否判断为异常的阈值。将第2步得到的模型和阈值检测测试集。对于第一点,我们得到的线性回归模型参数一定得是基于正常点的,否则,会出现下图这种情况:其中,左侧是基于正常数据的拟合结果,右侧是基于含有异常数据的拟合结果,蓝色是拟合线,绿色是基于正常数据的拟合线。我们可以发现,异常点的存在使拟原创 2020-11-13 16:02:21 · 2867 阅读 · 1 评论 -
Z-score与修正的Z-score评分识别异常
z-score对于一维数据,最常用评价异常的方法就是z-score方法,它的定义如下:zi=xi−uδz_i=\frac{x_i-u}{\delta}zi=δxi−u其中,xix_ixi是样本值,uuu是均值,δ\deltaδ是样本标准差。因此ziz_izi就是衡量该样本点距离样本均值有多少个标准差,用来表示各原始数据在数据组中的相对位置。另外,若样本服从正态分布,它可以表示该数据以下或以上数据的比例,即具有了概率的意义;比如样本服从正态分布,如果设置z-score的阈值为-2(低于原创 2020-11-12 18:48:45 · 7538 阅读 · 1 评论 -
单元高斯分布VS多元高斯分布
单元高斯分布前提假设:feature之间是独立的步骤如下:选择具有代表异常特征的feature,即训练集特征分别对每个维度的特征估计均值与方差的值计算上述图片中的P(x),如果P(x)<阈值特点:明确各个feature关系时适合使用(比如x1,x2就算不独立,我们知道其关系,可以通过构建新的feature x3=f(x1,x2),达到独立的假设计算量小多元高斯分布.步骤特点:自动捕捉到相关的feature(与单元高斯重大区别)计算量大,因为协方差的计算O(n^原创 2020-10-25 20:34:22 · 475 阅读 · 0 评论 -
综述:DEEP LEARNING FOR ANOMALY DETECTION: A SURVEY(未完成)
前言随着数据规模的增加,Deep learning比传统机器学习的方法更好,如下图所示:anomalies VS noveltiesDeep anomaly detection(DAD)的动机与挑战在异常检测上面,由于数据结构越来越复杂,传统算法在图像和学列数据集上的表现变得次优了;大规模异常检测的需要;DAD技术能从数据中学到hierarchical discriminative features,这种自动学习特征的能力减少了手动开发,可完成端到端的异常检测;但是对正常数据和异常数据区原创 2020-10-23 00:15:40 · 656 阅读 · 0 评论