MATCH: Metadata-Aware Text Classification in A Large Hierarchy
1、背景
1、作者(第一作者和通讯作者)
Zhang Yu, Shen Zhihong
2、单位
Univ. of Illinois at Urbana-Champaign
3、年份
2021
4、来源
WWW会议
2、四个问题
1、要解决什么问题?
现有的研究大多只对文本信息进行建模,少数尝试利用元数据或层次信号,但没有同时利用两者。在本文中,通过形式化大标签层次结构(例如,有数万个标签)中支持元数据的文本分类问题来弥补这一差距。
2、用了什么方法解决?
提出了MATCH解决方案—一个利用元数据和层次结构信息的端到端框架。
3、效果如何?
在两个具有大规模标签层次结构的海量文本数据集上的大量实验证明了MATCH的有效性,超过了最先进的深度学习基线。
4、还存在什么问题?
论文笔记
1 INTRODUCTION
文本分类是文本挖掘的一项基本任务。论文借用一些文献的例子引出目前的研究方法存在的不足之处,紧接着引出了论文的研究方法。论文通过形式化大标签层次结构(例如,有数万个标签)中支持元数据的文本分类问题来弥补这一差距。为了解决这个问题,我们提出了MATCH解决方案—一个利用元数据和层次结构信息的端到端框架。为了合并元数据,我们预先训练文本和元数据在同一空间的嵌入,并利用完全连接的注意来捕捉它们之间的相互关系。为了利用标签层次结构,我们提出了不同的方法来规范每个子标签的参数和父标签的输出概率。
本文贡献:
(1)用文档的元数据和大规模的标签层次来形式化文本分类问题,这在现有的研究中通常不会同时建模。
(2)设计了一个端到端的MATCH框架,该框架包含文档元数据和用于文本分类任务的大型标签层次结构。
(3)大量在线文本数据集上进行了大量实验,以证明所提出的MATCH框架及其设计选择的有效性。
2 PROBLEM DEFINITION
论文研究了多标签文本分类问题。传统上,这个问题被形式化为仅使用文档的文本信息作为推断其标签的输入。但是,文档的元数据和标签的层次结构通常也可以在实际应用程序中使用。
形式上,我们将文档d的文本信息表示为单个单词序列 W d = w 1 w 2 ⋅ ⋅ ⋅ w N W_d=w_1w_2···w_N Wd=w1w2⋅⋅⋅wN,将其所有文本字段连接起来,并将其所有元数据表示为一个集合 M d = ( m 1 , m 2 , ⋅ ⋅ ⋅ , m M ) M_d=(m_1,m_2,···,m_M) Md=(m1,m2,⋅⋅⋅,mM)标签层次结构可以表示为树或指定标签之间的上位词-下位词关系的有向无环图 (DAG)。在这两种情况下,标签层次都可以通过映射