数据挖掘与多标签分类策略研究
在数据挖掘和机器学习领域,有两个重要的研究方向值得深入探讨,一是关于数据集中有趣瓷砖集的挖掘,二是多标签分类中的阈值策略。下面将详细介绍这两方面的内容。
数据集中有趣瓷砖集的挖掘
在数据挖掘中,瓷砖的描述复杂度测量是一个关键问题。我们采用特定方法来衡量瓷砖的描述复杂度,公式如下:
[DL(\tau) = - \sum_{t\in T_{\tau}} \log(p_t) - \sum_{t\notin T_{\tau}} \log(1 - p_t) - \sum_{i\in I_{\tau}} \log(p_i) - \sum_{i\notin I_{\tau}} \log(1 - p_i)]
其中,(p_i) 是列边缘与行数的比值,(i \in I)(对于列的 (p_t),(t \in T) 同理)。信息内容与描述长度的比率被称为信息比率(InformationRatio),它代表了瓷砖中嵌入信息的压缩比,即数据挖掘者通过查看瓷砖获得的关于数据库的信息量与传输该信息所需的比特数之比。
为了找到最有趣的瓷砖集(平铺),不能简单地根据信息比率对单个瓷砖进行排名,因为排名靠前的项集通常具有高度冗余性。可以采用集合覆盖算法,将寻找具有最大总体信息内容且总体描述长度有上限的平铺问题转化为预算最大集合覆盖问题,使用贪心算法可以很好地近似解决该问题。
实验部分
我们在两个真实世界的数据集上进行了实验,分别是 KDDcoauthors 和 KDDabstracts 数据集。
- KDDcoauthors 数据集 :收集了 KDD 会议主要会议和研讨会论文及
超级会员免费看
订阅专栏 解锁全文
4751

被折叠的 条评论
为什么被折叠?



