9、数据异常检测与关联规则分析

数据异常检测与关联规则分析

1. BIRCH聚类识别异常值理论

为简便起见,我们先从二维数据入手,但多维数据同样适用。传统聚类方法,如层次聚类和k - 均值聚类,是通过计算数据点之间的距离,考量它们在x轴和y轴上的差异来识别聚类。而BIRCH聚类则利用x和y值的平方和来概括聚类数据。它还通过对数据进行反复的二元划分来形成聚类,每个聚类都有自己关于大小和平方和的度量指标。

通过迭代,软件会尝试为给定数据找到最适配的度量指标,这意味着聚类可以被拆分,并且会选择形成新聚类的阈值。计算过程相当复杂,因为计算机需要检查数据的所有可能组合。例如,仅有4个数据时,可能形成6个包含2个数据点的聚类;有100个数据时,可能形成5000个聚类。

一般来说,大的聚类会产生大的度量值,小的聚类产生小的度量值。最终选择多少个聚类用于进一步的数据解读,不仅取决于度量值的大小,还取决于研究者的偏好。拆分后的聚类可以看作是树的分支,对分支进行二元划分会增加树的高度。树越高,聚类操作所需的时间就越长。

聚类分析的一个主要问题是耗时且可能耗尽计算机内存。有时,使用额外的计算机进行内存分配是唯一的解决方案。例如,一棵具有二元分支的树,其分支数量为 (2^0 + 2^1 + 2^2 + \cdots = 2^{h + 1} - 1) ,其中h是分支层数。如果忽略“1”这一项,我们会得到 (h > 2\log(n)) 。当 (n)(分支数量)为1000时,一个有10层分支的树在计算时间和所需计算机内存方面可能是最具成本效益的。BIRCH聚类设法保持树的高度较小,为此它会进行聚类旋转,将包含多个聚类的分支上移,将包含较少聚类的分支下移。

为了识别异常值,BIRCH应用了先验给定

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值