19、数据挖掘与多标签分类策略研究

最新推荐文章于 2025-12-01 00:37:54 发布

assembly8low

最新推荐文章于 2025-12-01 00:37:54 发布

阅读量13

点赞数

CC 4.0 BY-SA版权

分类专栏：智能数据分析的前沿探索文章标签：数据挖掘多标签分类瓷砖集

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/assembly8low/article/details/153708689

智能数据分析的前沿探索专栏收录该内容

48 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据挖掘与多标签分类策略研究

在数据挖掘和机器学习领域，有两个重要的研究方向值得深入探讨，一是关于数据集中有趣瓷砖集的挖掘，二是多标签分类中的阈值策略。下面将详细介绍这两方面的内容。

数据集中有趣瓷砖集的挖掘

在数据挖掘中，瓷砖的描述复杂度测量是一个关键问题。我们采用特定方法来衡量瓷砖的描述复杂度，公式如下：
[DL(\tau) = - \sum_{t\in T_{\tau}} \log(p_t) - \sum_{t\notin T_{\tau}} \log(1 - p_t) - \sum_{i\in I_{\tau}} \log(p_i) - \sum_{i\notin I_{\tau}} \log(1 - p_i)]
其中，(p_i) 是列边缘与行数的比值，(i \in I)（对于列的 (p_t)，(t \in T) 同理）。信息内容与描述长度的比率被称为信息比率（InformationRatio），它代表了瓷砖中嵌入信息的压缩比，即数据挖掘者通过查看瓷砖获得的关于数据库的信息量与传输该信息所需的比特数之比。

为了找到最有趣的瓷砖集（平铺），不能简单地根据信息比率对单个瓷砖进行排名，因为排名靠前的项集通常具有高度冗余性。可以采用集合覆盖算法，将寻找具有最大总体信息内容且总体描述长度有上限的平铺问题转化为预算最大集合覆盖问题，使用贪心算法可以很好地近似解决该问题。

实验部分

我们在两个真实世界的数据集上进行了实验，分别是 KDDcoauthors 和 KDDabstracts 数据集。
- KDDcoauthors 数据集 ：收集了 KDD 会议主要会议和研讨会论文及

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。