关于裁减和自连接的问题(数据挖掘)

关于裁减和自连接的问题,我有自己一些认识。说出来,不对的如有时间请指出来,没兴趣的别看就行。

涉及到的名词:

最广范围选取适合的k+1长度的项目------从k长度项目集中派生出来的长度为k+1的项目集,只遵循了有k-1个元素相同两个项目合并为(k-1个相同的+两个中不相同的两项。)

k+1字段中的任意k组合字段-------从k+1长度的项目中任找k个元素构成的k长度项目。

第k层的频繁项目集------k长度的,已确定的,支持度满足要求的 最终项目的集合


k+1的候选项目集--------最小的,k+1长度的,不能确定每项是否支持度满足要求的项目的集合

自连接和裁减都是出现在从第k层的频繁项目集到第k+1的候选项目集过程中的。他们先后有顺序的,先是进行自连接,然后再裁减。其实在自连接之前有一步是最广范围选取适合的k+1长度的项目。自连接和裁减的基本原理的依据点是相同的,就是在k+1字段中的任意k组合字段一定是频繁的。我们从最广范围进行自连接和进行裁
减都是为了去处那些k组合字段不是频繁的对应得k+1项目。

只不过自连接是在基于字典序的较简单检查并去除方法,它更容易对较大的数据进行操作,速度更快。

由于自连接是按字典序的排除,我们能够根据上段所述的原则进行否定的确认,但是对于保留下来的k+1项目,我们不能肯定在不按字典序的自连接方法中的匹配k字段的频繁性,所以才进行了裁减操作。它是比自连接更细致的排除做法。

我们可以这样理解:没有自连接操作,我们从最广范围的k+1长度的项目集中直接进行裁减操作也可以最终得到k+1的候选项目集。只不过自连接使裁减的操作减轻了许多,让他基于的数据量更小罢了,因为裁减是毫无道理的全面组合的检查。他很耗时耗空间。

以上是我对这两者的看法。语言能力有限,可能表述的不够清晰。见谅。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值