离散化和数值概念层次树简介

离散化与数值、类别概念层次树在大数据预处理中的应用

最新推荐文章于 2025-05-25 11:37:11 发布

原创

最新推荐文章于 2025-05-25 11:37:11 发布 · 969 阅读

CC 4.0 BY-SA版权

文章标签：

离散化技术通过将连续属性的值范围分区间，减少数据取值，常见于决策树挖掘的预处理。数值概念层次树通过数据分布分析构造，包括Bin方法、直方图方法、聚类分析和熵方法等。类别概念层次树则依据属性的顺序关系或数据聚合构建，常用于类别数据。预处理后的数据更利于理解和挖掘。

离散化技术方法可以通过将属性（连续取值）域值范围分为若干区间，来帮助消减一个连续（取值）属性的取值个数。可以用一个标签来表示一个区间内的实际数据值。在基于决策树的分类挖掘中，消减属性取值个数的离散化处理是一个极为有效的数据预处理步骤。

图 1 所示是一个年龄属性的概念层次树。概念层次树可以通过利用较高层次概念替换低层次概念（如年龄的数值）来减少原有数据集的数据量。虽然一些细节在数据泛化过程中消失了，但这样所获得的泛化数据或许会更易于理解、更有意义。在消减后的数据集上进行数据挖掘显然效率更高。

由于数据的范围变化较大，所以构造数值属性的概念层次树是一件较为困难的事情。利用数据分布分析，可以自动构造数值属性的概念层次树。其中，主要的几种构造方法如下。

1. Bin 方法

Bin 方法是一种离散化方法。例如，属性的值可以通过将其分配到各 Bin 中而将其离散化。利用每个 Bin 的均值和中位数替换每个 Bin 中的值（利用均值或中位数进行平滑），并循环应用这些操作处理每次的操作结果，就可以获得一个概念层次树。

图 1 年龄属性的概念层次树

2. 直方图方法

直方图方法也可以用于离散化处理。例如，在等宽直方图中，数值被划分为等大小的区间，如（0,100］,（100,200］,…，（900,1000］。

循环应用直方图方法处理每次的划分结果，当达到用户指定层次水平后结束划分，最终可自动获得多层次概念树。最小间隔大小也可以帮助控制循环过程，包括指定一个划分的最小宽度或指定每一个层次的每一划分中数值的个数等。

3. 聚类分析方法

聚类分析方法可以将数据集划分为若干类或组。每个类构成了概念层次树的一个结点，每个类还可以进一步分解为若干子类，从而构成更低水平的层次。当然类也可以合并起来构成更高水平的层次。