基于标签相关性的多标签学习

原创

已于 2024-11-13 14:25:50 修改 · 1k 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#python

于 2024-11-13 14:20:43 首次发布

✨✨ 欢迎大家来访Srlua的博文（づ￣3￣）づ╭❤～✨✨

🌟🌟 欢迎各位亲爱的读者，感谢你们抽出宝贵的时间来阅读我的文章。

我是Srlua小谢，在这里我会分享我的知识和经验。🎥

希望在这里，我们能一起探索IT世界的奥妙，提升我们的技能。🔮

记得先点赞👍后阅读哦~ 👏👏

📘📚 所属专栏：传知代码论文复现

欢迎访问我的主页：Srlua小谢获取更多信息和资源。✨✨🌙🌙

multi_label_learn.py文件

本文所有资源均可在该地址处获取。

论文概述

在这里插入图片描述

帕金森病是一种使人虚弱的慢性神经系统疾病。传统中医（TCM）是一种诊断帕金森病的新方法，而用于诊断帕金森病的中医数据集是一个多标签数据集。考虑到帕金森病数据集中的症状（标签）之间总是存在相关性，可以通过利用标签相关性来促进多标签学习过程。目前的多标签分类方法主要尝试从标签对或标签链中挖掘相关性。该文章提出了一种简单且高效的多标签分类框架，称为潜在狄利克雷分布多标签（LDAML），该框架旨在通过使用类别标签的主题模型来学习全局相关性。简而言之，研究人员试图通过主题模型在标签集上获得抽象的“主题”，从而能够挖掘标签之间的全局相关性。大量实验清楚地验证了所提出的方法是一个通用且有效的框架，能够提高大多数多标签算法的性能。基于该框架，研究人员在中医帕金森病数据集上取得了令人满意的实验结果，这可以为该领域的发展提供参考和帮助。

什么是多标签学习

论文贡献

提出了一种通用且高效的多标签分类框架——Latent Dirichlet Allocation Multi-Label (LDAML)。该框架通过利用标签间的关联性进行多标签分类。该框架可以应用于大多数当前的多标签分类方法，使其性能得到提升。通过使用LDAML框架，可以显著提升简单方法（如Binary Relevance, BR）的性能，甚至超过某些最新的方法，同时保持较低的时间成本。提出的改进LDAML在某些特殊数据集（如帕金森数据集）上取得了最佳性能。特别是在帕金森数据集上，改进的LDAML框架实现了最优性能，达到了本文的最终目标。该方法能够在未来为医生提供指导和帮助。

算法流程

挖掘“主题“——提取标签相关性
与通过查找标签子集或标签链来利用相关性的传统方法不同，LDAML通过发现标签的抽象“主题”来利用相关性。假设为d维特征向量的输入空间，表示q类标号的输出空间。给定多标签训练集，其中为d维特征向量，为对应的标签集。我们可以将每个实例看作一个文档，每个标签看作文档中的一个单词。直观地说，一定有一些抽象的“主题”，期望特定的标签或多或少地出现在实例中，特别是在包含大量相关标签的多标签数据集中。LDAML算法的主要流程分为两步：（1）从训练集中挖掘标签主题；（2）计算主题的离散分布。
从训练集中挖掘标签主题: 首先，我们将LDA引入到训练集d中，每个实例xi表示文档，每个标签表示第i个实例中的第j个标签。然后利用LDA模型生成过程计算实例-主题 θ 的概率分布矩阵，其中表示第i个实例注入第j主题的概率。
主题的离散分布: 计算实例-主题分布矩阵后，得到每个实例属于每个主题的概率值。为了确定实例确切属于哪个主题，我们需要用离散值0/1来代替概率值。在这里我们使用的离散化方法如下所示：
再次训练拟合M模型——对真实帕金森病例进行筛查最后，可以再次使用一种多标签学习模型M对扩增后的训练集D’进行拟合，进一步建立输入数据和输出空间的数据联系。然后对扩增后的测试集t’进行多标签分类，获得输入样本是否患有病症以及其他情况的预测结果。上述过程的整体框架流程图如算法2所示。

实验结果

文章在四份数据集上用多种多标签学习分类模型分别加上LDAML算法与其原始模型的分类效果进行对比，实验结果如图所示：
以上实验结果表明，LDAML能够在性能和时间成本之间取得良好的平衡。目前的大多数方法都可以应用于LDAML。我们可以采用目前最先进的方法作为LDAML在原始基础上取得突破的基本方法（base model）。另一方面，唯一额外的时间代价是计算主题概率分布矩阵的小词空间。因此，LDAML的时间成本接近于其基础方法的时间成本。通过采用BR或CC等较弱的方法作为基本方法，可以在较低的时间成本下提高接近实际状态的性能。这些结果表明，LDAML是一个通用的框架，可以为具有标签相关性的多标签问题提供鲁棒且更优的解决方案。

核心代码复现

由于改论文代码目前尚未开源，因此在本文中我将给出由本人根据论文算法流程一比一复制的复现代码，代码源文件我将放在附件中，其核心逻辑如下：

main.py文件

<span style="background-color:#f8f8f8"><span style="color:#333333"><span style="color:#aa5500">#########################伪代码###########################</span>
<span style="color:#aa5500"># 导入必要的库</span>
Import libraries

<span style="color:#aa5500"># 定义函数</span>
Function discretize(theta):
    <span style="color:#aa5500"># 初始化二进制矩阵 YT</span>
    Initialize YT as a zero matrix with the same shape as theta
    For each row i <span style="color:#770088">in</span> theta:
        Find the maximum value <span style="color:#770088">in</span> row i
        For each column j <span style="color:#770088">in</span> row i:
            If the difference between the max value and theta[i][j] is less than <span style="color:#1166