【层级文本分类】Constrained Sequence-to-Tree Generation for Hierarchical Text Classification

该博客探讨了层次文本分类(HTC)问题,提出了一种新的序列到树(Seq2Tree)框架,结合深度优先遍历(DFS)进行标签线性化。通过约束解码策略,解决了传统方法中的标签不一致问题,提高了HTC任务的性能。实验结果表明,这种方法在多个基准数据集上取得了显著的改进。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Constrained Sequence-to-Tree Generation for Hierarchical Text Classification

1、背景

1、作者(第一作者和通讯作者)
   Yu Chao, Shen Yi
2、单位
    Alibaba Group
3、年份
   2022
4、来源
   SIGIR

2、四个问题

1、要解决什么问题?
   层次文本分类(HTC)是一项具有挑战性的任务,其中可以将文档分配给分类法中的多个层次结构类别。以往的研究大多认为HTC是一个扁平的多标签分类问题,这必然会导致“标签不一致”问题。

2、用了什么方法解决?
   将HTC定义为一个序列生成任务,并引入一个序列到树的框架(Seq2Tree)来建模分层标签结构。还设计了一个带有动态词汇表的约束解码策略,以保证结果的标签一致性。

3、效果如何?
   本文提出的方法在三个基准数据集上取得了显著而一致的改进。

4、还存在什么问题?
   

论文笔记

1、INTRODUCTION

    HTC是一个特殊的多标签文本分类问题,其目的是将每个文档分配给图1(a)所示的分类法层次结构的一组相关节点。HTC有很多应用,比如产品分类,细粒度实体分类和新闻分类。

在这里插入图片描述

    现有的方法都将HTC视为一个扁平的多标签分类任务,分类结果会出现标签不一致的问题。图1中(a)为正确的标签,(b)为标签不一致问题,movie和bussiness并没有被预测出来。在本文中作者旨在解决HTC的“标签不一致”问题。

    本文中,作者将其与树状结构的深度优先遍历算法(DFS)相关联,该算法能够确保可以按照自顶向下的顺序访问同一路径内的节点。提出了一个用于HTC的序列树(Seq2Tree)框架。首先利用DFS将分层标签转换为线性化的标签序列,然后以传统的seq2seq方式映射文档文本和相应的标签序列。此外,还设计了一个约束解码策略(CD),该策略可以利用分层标签依赖来指导生成过程。

2 METHODOLOGY

    本文的目标是利用序列生成架构来解决HTC任务。作者需要将分类法层次结构转换为序列(标签线性化)。

2.1 Problem Definition

    论文将HTC认为定义为: F : ( χ , T ) ⟶ F:(\chi ,T)\longrightarrow F:(χ,T)y,其中 χ = ( X 1 , . . . X N ) \chi=(X_1,...X_N) χ=(X1,...XN)表示输入文档集。给定一个层次标签结构 T = ( V , E ) T = (V, E) T=(V,E)其中V是节点集合,E是边的集合。y={Y1,…,YN}是 χ \chi χ的目标标签集。标是学习一个模型,可以将文本序列 X = ( x 1 , . . . x N ) X =

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值