19、数据挖掘与多标签分类策略研究

数据挖掘与多标签分类策略研究

在数据挖掘和机器学习领域,有两个重要的研究方向值得深入探讨,一是关于数据集中有趣瓷砖集的挖掘,二是多标签分类中的阈值策略。下面将详细介绍这两方面的内容。

数据集中有趣瓷砖集的挖掘

在数据挖掘中,瓷砖的描述复杂度测量是一个关键问题。我们采用特定方法来衡量瓷砖的描述复杂度,公式如下:
[DL(\tau) = - \sum_{t\in T_{\tau}} \log(p_t) - \sum_{t\notin T_{\tau}} \log(1 - p_t) - \sum_{i\in I_{\tau}} \log(p_i) - \sum_{i\notin I_{\tau}} \log(1 - p_i)]
其中,(p_i) 是列边缘与行数的比值,(i \in I)(对于列的 (p_t),(t \in T) 同理)。信息内容与描述长度的比率被称为信息比率(InformationRatio),它代表了瓷砖中嵌入信息的压缩比,即数据挖掘者通过查看瓷砖获得的关于数据库的信息量与传输该信息所需的比特数之比。

为了找到最有趣的瓷砖集(平铺),不能简单地根据信息比率对单个瓷砖进行排名,因为排名靠前的项集通常具有高度冗余性。可以采用集合覆盖算法,将寻找具有最大总体信息内容且总体描述长度有上限的平铺问题转化为预算最大集合覆盖问题,使用贪心算法可以很好地近似解决该问题。

实验部分

我们在两个真实世界的数据集上进行了实验,分别是 KDDcoauthors 和 KDDabstracts 数据集。
- KDDcoauthors 数据集 :收集了 KDD 会议主要会议和研讨会论文及

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值