#Anomaly detection(异常检测)
这是机器学习算法的一个常见应用,虽然主要用在非监督学习问题,但从某些角度看跟监督学习问题是非常相似的。
更正式的定义:
- 给定无标签的训练集,对数据建模即p(x),即对x的分布概率建模,对于新样本,如果p(Xtest)低于阈值ε,则将其标记为异常。
举例:
#Gaussian distribution(高斯分布)
也称为normal distribution(正态分布)。
- variance parameter(方差)
- standard deviation(标准方差)
Parameter estimation(参数估计)问题:
给定数据集,希望估算出μ和sigma平方的值。
- 这里的估计实际上就是对μ和sigma平方的极大似然估计;
- 在机器学习中大家喜欢用1/m
#Algorithm(算法)
有一个共有m个样本的无标签训练集,用数据集建立概率模型p(x),找出哪些特征量的出现概率较高或较低。