会议信息
EACL 2023
相关出版物
《极端多标签分类中的聚类引导标签生成》
研究内容
多年来,某中心的研究人员一直在探索极端多标签分类(XMC)这一主题,即在可能的分类类别空间很大(例如数百万个标签)时对输入进行分类。在此过程中,我们多次推动了技术发展。
但先前的工作是在经典分类问题设置中进行的,其中模型为空间中的每个标签计算概率。在一篇新论文中,我们将XMC视为生成式问题,对于每个输入词序列,模型生成标签的输出序列。这使我们能够利用大型语言模型的力量来完成XMC任务。
然而,在这种设置中,与经典设置一样,困难在于XMC标签空间中的大多数标签属于长尾分布,在训练数据中代表性示例很少。过去的工作通过将标签空间组织成层次结构来解决这个问题:首先对输入进行粗粒度分类,然后通过层次树的连续细化遍历,到达语义相关概念的聚类。这有助于模型从相关但具有不同标签的示例中学习通用分类原则,也减少了模型完全错误标记的可能性。
技术方法
在论文中,我们做了类似的工作,使用辅助网络将标签分组为聚类,并使用聚类信息指导生成模型的输出。我们在训练期间尝试了两种不同的指导方式:
- 将指示哪些聚类适用于文本输入的位向量直接馈送到生成模型中
- 在多任务目标上微调模型:模型学习从聚类名称预测标签,以及从文本预测聚类名称
架构设计
我们考虑的任务是模型接收文档(如维基百科条目)作为输入,并输出表征其内容的一组标签。为了微调生成模型,我们使用包含样本文本和人工标注者应用的标签的数据集。
作为基线生成模型,我们使用T5语言模型。T5是编码器-解码器模型,使用双向而非单向编码:在预测标签时,它可以访问整个输入序列。这非常适合我们的设置,其中标签的顺序不如其准确性重要,我们希望标签最好地表征整个文档,而不仅仅是其子部分。
为了创建标

最低0.47元/天 解锁文章
6035

被折叠的 条评论
为什么被折叠?



