数据异常检测与关联规则分析
1. BIRCH聚类识别异常值理论
为简便起见,我们先从二维数据入手,但多维数据同样适用。传统聚类方法,如层次聚类和k - 均值聚类,是通过计算数据点之间的距离,考量它们在x轴和y轴上的差异来识别聚类。而BIRCH聚类则利用x和y值的平方和来概括聚类数据。它还通过对数据进行反复的二元划分来形成聚类,每个聚类都有自己关于大小和平方和的度量指标。
通过迭代,软件会尝试为给定数据找到最适配的度量指标,这意味着聚类可以被拆分,并且会选择形成新聚类的阈值。计算过程相当复杂,因为计算机需要检查数据的所有可能组合。例如,仅有4个数据时,可能形成6个包含2个数据点的聚类;有100个数据时,可能形成5000个聚类。
一般来说,大的聚类会产生大的度量值,小的聚类产生小的度量值。最终选择多少个聚类用于进一步的数据解读,不仅取决于度量值的大小,还取决于研究者的偏好。拆分后的聚类可以看作是树的分支,对分支进行二元划分会增加树的高度。树越高,聚类操作所需的时间就越长。
聚类分析的一个主要问题是耗时且可能耗尽计算机内存。有时,使用额外的计算机进行内存分配是唯一的解决方案。例如,一棵具有二元分支的树,其分支数量为 (2^0 + 2^1 + 2^2 + \cdots = 2^{h + 1} - 1) ,其中h是分支层数。如果忽略“1”这一项,我们会得到 (h > 2\log(n)) 。当 (n)(分支数量)为1000时,一个有10层分支的树在计算时间和所需计算机内存方面可能是最具成本效益的。BIRCH聚类设法保持树的高度较小,为此它会进行聚类旋转,将包含多个聚类的分支上移,将包含较少聚类的分支下移。
为了识别异常值,BIRCH应用了先验给定
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



