极端多标签分类技术的新突破
在神经信息处理系统大会(NeurIPS)上发表的两篇论文,研究了将同一标签分配给多个类别的方法,以及基于Transformer模型的快速训练技术。
研究背景
近年来,已发表多篇关于极端多标签分类(XMC)的论文,即在候选标签数量极大时对输入数据进行分类。今年初,某中心公开了自研XMC框架PECOS的代码,该框架通过标签分区提高效率:首先将标签分组为簇,训练匹配模型将输入分配给簇,然后训练排序器从指定组中选择单个标签。
标签解纠缠方法
在基于分区的极端多标签分类中,考虑同一标签属于多个簇的情况(例如"苹果"可能同时属于计算设备簇和水果簇)。提出一种将标签分配给多个簇的方法,在效率影响可忽略的情况下提高分类准确率。
技术实现
- 使用分层树结构进行标签聚类,从粗粒度到细粒度逐步细分
- 通过监督方式从数据中学习分层树结构
- 将簇分配作为优化问题,限制每个标签可分配的簇数量(1-6个)
- 基于TF-IDF创建临时分层树,训练匹配器后重新分配标签以最大化准确率
实验结果显示,在四个数据集的六项指标上,该方法在21项中取得最高分,两项获得第二名。
多分辨率Transformer微调
提出XR-Transformer方法,结合递归线性匹配和基于Transformer的匹配技术。在Amazon-3M数据集上,训练时间从23天(8个GPU)减少到29小时,且准确率显著提升。
训练流程
- 基于TF-IDF特征构建分层标签树
- 为每层树联合训练基于Transformer的编码器和线性排序器
- 使用Transformer嵌入和TF-IDF特征作为输入分配到下一层簇
- 训练完成后拼接最终标签嵌入与TF-IDF特征,生成新标签树
- 使用拼接特征为每层训练新的线性排序器
在六个公共数据集上的测试表明,在标签数超过50万的三个数据集中,XR-Transformer在所有指标上均显著领先。
技术影响
这些突破极大提升了极端多标签分类的效率与准确性,为处理百万级标签场景提供了实用解决方案,在信息检索和文本分类领域具有重要应用价值。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

1230

被折叠的 条评论
为什么被折叠?



