【层级文本分类】Constrained Sequence-to-Tree Generation for Hierarchical Text Classification-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_42417735/article/details/126646223

该博客探讨了层次文本分类（HTC）问题，提出了一种新的序列到树（Seq2Tree）框架，结合深度优先遍历（DFS）进行标签线性化。通过约束解码策略，解决了传统方法中的标签不一致问题，提高了HTC任务的性能。实验结果表明，这种方法在多个基准数据集上取得了显著的改进。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Constrained Sequence-to-Tree Generation for Hierarchical Text Classification

1、背景

1、作者（第一作者和通讯作者）
Yu Chao, Shen Yi
2、单位
Alibaba Group
3、年份
2022
4、来源
SIGIR

2、四个问题

1、要解决什么问题？
层次文本分类(HTC)是一项具有挑战性的任务，其中可以将文档分配给分类法中的多个层次结构类别。以往的研究大多认为HTC是一个扁平的多标签分类问题，这必然会导致“标签不一致”问题。

2、用了什么方法解决？
将HTC定义为一个序列生成任务，并引入一个序列到树的框架(Seq2Tree)来建模分层标签结构。还设计了一个带有动态词汇表的约束解码策略，以保证结果的标签一致性。

3、效果如何？
本文提出的方法在三个基准数据集上取得了显著而一致的改进。

4、还存在什么问题？

论文笔记

1、INTRODUCTION

HTC是一个特殊的多标签文本分类问题，其目的是将每个文档分配给图1(a)所示的分类法层次结构的一组相关节点。HTC有很多应用，比如产品分类，细粒度实体分类和新闻分类。

在这里插入图片描述

现有的方法都将HTC视为一个扁平的多标签分类任务，分类结果会出现标签不一致的问题。图1中(a)为正确的标签，(b)为标签不一致问题，movie和bussiness并没有被预测出来。在本文中作者旨在解决HTC的“标签不一致”问题。

本文中，作者将其与树状结构的深度优先遍历算法(DFS)相关联，该算法能够确保可以按照自顶向下的顺序访问同一路径内的节点。提出了一个用于HTC的序列树(Seq2Tree)框架。首先利用DFS将分层标签转换为线性化的标签序列，然后以传统的seq2seq方式映射文档文本和相应的标签序列。此外，还设计了一个约束解码策略(CD)，该策略可以利用分层标签依赖来指导生成过程。

2 METHODOLOGY

本文的目标是利用序列生成架构来解决HTC任务。作者需要将分类法层次结构转换为序列(标签线性化)。

2.1 Problem Definition

论文将HTC认为定义为： $F:(\chi ,T)\longrightarrow$ y，其中 $\chi=(X_1,...X_N)$ 表示输入文档集。给定一个层次标签结构 $T = (V, E)$ 其中V是节点集合，E是边的集合。y={Y₁,…,Y_N}是 $\chi$ 的目标标签集。标是学习一个模型，可以将文本序列