Constrained Sequence-to-Tree Generation for Hierarchical Text Classification
1、背景
1、作者(第一作者和通讯作者)
Yu Chao, Shen Yi
2、单位
Alibaba Group
3、年份
2022
4、来源
SIGIR
2、四个问题
1、要解决什么问题?
层次文本分类(HTC)是一项具有挑战性的任务,其中可以将文档分配给分类法中的多个层次结构类别。以往的研究大多认为HTC是一个扁平的多标签分类问题,这必然会导致“标签不一致”问题。
2、用了什么方法解决?
将HTC定义为一个序列生成任务,并引入一个序列到树的框架(Seq2Tree)来建模分层标签结构。还设计了一个带有动态词汇表的约束解码策略,以保证结果的标签一致性。
3、效果如何?
本文提出的方法在三个基准数据集上取得了显著而一致的改进。
4、还存在什么问题?
论文笔记
1、INTRODUCTION
HTC是一个特殊的多标签文本分类问题,其目的是将每个文档分配给图1(a)所示的分类法层次结构的一组相关节点。HTC有很多应用,比如产品分类,细粒度实体分类和新闻分类。
现有的方法都将HTC视为一个扁平的多标签分类任务,分类结果会出现标签不一致的问题。图1中(a)为正确的标签,(b)为标签不一致问题,movie和bussiness并没有被预测出来。在本文中作者旨在解决HTC的“标签不一致”问题。
本文中,作者将其与树状结构的深度优先遍历算法(DFS)相关联,该算法能够确保可以按照自顶向下的顺序访问同一路径内的节点。提出了一个用于HTC的序列树(Seq2Tree)框架。首先利用DFS将分层标签转换为线性化的标签序列,然后以传统的seq2seq方式映射文档文本和相应的标签序列。此外,还设计了一个约束解码策略(CD),该策略可以利用分层标签依赖来指导生成过程。
2 METHODOLOGY
本文的目标是利用序列生成架构来解决HTC任务。作者需要将分类法层次结构转换为序列(标签线性化)。
2.1 Problem Definition
论文将HTC认为定义为: F : ( χ , T ) ⟶ F:(\chi ,T)\longrightarrow F:(χ,T)⟶y,其中 χ = ( X 1 , . . . X N ) \chi=(X_1,...X_N) χ=(X1,...XN)表示输入文档集。给定一个层次标签结构 T = ( V , E ) T = (V, E) T=(V,E)其中V是节点集合,E是边的集合。y={Y1,…,YN}是 χ \chi χ的目标标签集。标是学习一个模型,可以将文本序列 X = ( x 1 , . . . x N ) X =