生成式AI改进极端多标签分类技术

最新推荐文章于 2025-12-20 19:32:34 发布

原创

最新推荐文章于 2025-12-20 19:32:34 发布 · 747 阅读

·

11

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #分类 #机器学习 #极端多标签分类 #生成式AI #自然语言处理 #程序那些事

会议信息

EACL 2023

相关出版物

《极端多标签分类中的聚类引导标签生成》

研究内容

多年来，某中心的研究人员一直在探索极端多标签分类（XMC）这一主题，即在可能的分类类别空间很大（例如数百万个标签）时对输入进行分类。在此过程中，我们多次推动了技术发展。

但先前的工作是在经典分类问题设置中进行的，其中模型为空间中的每个标签计算概率。在一篇新论文中，我们将XMC视为生成式问题，对于每个输入词序列，模型生成标签的输出序列。这使我们能够利用大型语言模型的力量来完成XMC任务。

然而，在这种设置中，与经典设置一样，困难在于XMC标签空间中的大多数标签属于长尾分布，在训练数据中代表性示例很少。过去的工作通过将标签空间组织成层次结构来解决这个问题：首先对输入进行粗粒度分类，然后通过层次树的连续细化遍历，到达语义相关概念的聚类。这有助于模型从相关但具有不同标签的示例中学习通用分类原则，也减少了模型完全错误标记的可能性。

技术方法

在论文中，我们做了类似的工作，使用辅助网络将标签分组为聚类，并使用聚类信息指导生成模型的输出。我们在训练期间尝试了两种不同的指导方式：

将指示哪些聚类适用于文本输入的位向量直接馈送到生成模型中
在多任务目标上微调模型：模型学习从聚类名称预测标签，以及从文本预测聚类名称

架构设计

我们考虑的任务是模型接收文档（如维基百科条目）作为输入，并输出表征其内容的一组标签。为了微调生成模型，我们使用包含样本文本和人工标注者应用的标签的数据集。

作为基线生成模型，我们使用T5语言模型。T5是编码器-解码器模型，使用双向而非单向编码：在预测标签时，它可以访问整个输入序列。这非常适合我们的设置，其中标签的顺序不如其准确性重要，我们希望标签最好地表征整个文档，而不仅仅是其子部分。

为了创建标

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。