今天在数据挖掘导论上看到了用熵对连续数据进行离散化的方法,基本思想是利用熵的大小来表示划分后数据集的纯度,熵越小,数据纯度越大,得到的离散数据可用性就更高
具体做法是:先把数据集划分为两部分,计算两部分的熵的和,在熵最小的地方划分,然后对熵最大的那部分重复此步骤,直到满足用户需要的数据集个数
附熵的计算公式:
E = Σ-Pi·log2Pi
Pi表示第i类在数据区间中出现的概率,计算多个区间的这个公式求和求最小值
今天在数据挖掘导论上看到了用熵对连续数据进行离散化的方法,基本思想是利用熵的大小来表示划分后数据集的纯度,熵越小,数据纯度越大,得到的离散数据可用性就更高
具体做法是:先把数据集划分为两部分,计算两部分的熵的和,在熵最小的地方划分,然后对熵最大的那部分重复此步骤,直到满足用户需要的数据集个数
附熵的计算公式:
E = Σ-Pi·log2Pi
Pi表示第i类在数据区间中出现的概率,计算多个区间的这个公式求和求最小值