异常检测
问题动机
以飞机发动机的例子来说明问题
设定一个阈值,如果偏离程度过大,则认定为有异常
步骤:
- 捕捉特征x(i)x^{(i)}x(i)
- 建立分布模型p(x)p(x)p(x)
- 确定哪些用户有异常,若p(x)<ϵp(x)<\epsilonp(x)<ϵ
高斯分布
异常检测的算法
- 选择有可能的特征xix_ixi
- 参数拟合,利用似然估计的方法进行参数的拟合。
- 根据高斯分布算出异常的概率有多大,与ϵ\epsilonϵ作比较
多元高斯分布
Original model VS. Multivariate Gaussian
原始模型和多元高斯分布模型其实就是一个n个一维分布和n维分布的对比,独立与不独立的问题
确定特征的数量和样本数量的关系以及特征的冗余程度,如果出现冗余的话就进行删除操作