目录
1. 高斯分布(Gaussian distribution)
学习完吴恩达老师机器学习课程的异常检测,简单的做个笔记。文中部分描述属于个人消化后的理解,仅供参考。
如果这篇文章对你有一点小小的帮助,请给个关注喔~我会非常开心的~
0. 前言
易知,采集的数据或者数据本身,有可能出现异常,这些数据大部分会集中在一起,而有少部分会分散在周围。
一般地,采集的数据服从某种概率分布模型,例如服从高斯分布(Gaussian distribution),数据大概率的落在正常的区间范围内,而有小概率出现异常落在区间范围外。我们采用高斯分布作为数据的概率模型。
异常检测,则是对新的测试样本进行检测,判断这个样本是否是异常的。如果用概率模型 表示,则
表示数据有异常,
为一个很小的常数。
1. 高斯分布(Gaussian distribution)
变量 服从高斯分布可表示为
,其中
为均值,
为方差,概率分布有如下定义:
2. 参数估计
通过已知的样本数据集,估计这些数据分布中的未知参数,就是参数估计。
例如,已知一样本数据集,假设数据服从高斯分布,则需要估计的参数就是 和
,根据统计的思想,可采用下式: