关于裁减和自连接的问题（数据挖掘）

最新推荐文章于 2025-12-02 15:51:34 发布

原创最新推荐文章于 2025-12-02 15:51:34 发布 · 644 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#数据挖掘 #语言

本文围绕自连接和裁减展开，介绍了相关名词概念。自连接和裁减出现在从第k层频繁项目集到第k+1候选项目集过程中，先自连接后裁减，二者依据相同，目的是去除k组合字段不频繁的k+1项目。自连接操作可减轻裁减负担，让其基于的数据量更小。

关于裁减和自连接的问题，我有自己一些认识。说出来，不对的如有时间请指出来，没兴趣的别看就行。

涉及到的名词：

最广范围选取适合的k+1长度的项目------从k长度项目集中派生出来的长度为k+1的项目集，只遵循了有k-1个元素相同两个项目合并为（k-1个相同的+两个中不相同的两项。）

k+1字段中的任意k组合字段-------从k+1长度的项目中任找k个元素构成的k长度项目。

第k层的频繁项目集------k长度的，已确定的，支持度满足要求的最终项目的集合

k+1的候选项目集--------最小的，k+1长度的，不能确定每项是否支持度满足要求的项目的集合

自连接和裁减都是出现在从第k层的频繁项目集到第k+1的候选项目集过程中的。他们先后有顺序的，先是进行自连接，然后再裁减。其实在自连接之前有一步是最广范围选取适合的k+1长度的项目。自连接和裁减的基本原理的依据点是相同的，就是在k+1字段中的任意k组合字段一定是频繁的。我们从最广范围进行自连接和进行裁
减都是为了去处那些k组合字段不是频繁的对应得k+1项目。

只不过自连接是在基于字典序的较简单检查并去除方法，它更容易对较大的数据进行操作，速度更快。

由于自连接是按字典序的排除，我们能够根据上段所述的原则进行否定的确认，但是对于保留下来的k+1项目，我们不能肯定在不按字典序的自连接方法中的匹配k字段的频繁性，所以才进行了裁减操作。它是比自连接更细致的排除做法。

我们可以这样理解：没有自连接操作，我们从最广范围的k+1长度的项目集中直接进行裁减操作也可以最终得到k+1的候选项目集。只不过自连接使裁减的操作减轻了许多，让他基于的数据量更小罢了，因为裁减是毫无道理的全面组合的检查。他很耗时耗空间。

以上是我对这两者的看法。语言能力有限，可能表述的不够清晰。见谅。