HiDEC

最新推荐文章于 2024-08-17 18:42:40 发布

原创最新推荐文章于 2024-08-17 18:42:40 发布 · 436 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #多层级文本分类

nlp 专栏收录该内容

25 篇文章

订阅专栏

HiDEC是一种用于层次文本分类的新型解码器，旨在解决数据不平衡和层级依赖问题。通过层次递归解码，结合编码器和层次注意力机制，HiDEC在保持对层级依赖和层级信息意识的同时，将上下文矩阵解码为子层级序列。实验表明，HiDEC在Micro-F1和Macro-F1指标上表现优秀，尤其是在与graph neural networks和meta-learning方法的比较中。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

HIERARCHY DECODER IS ALL YOU NEED TO TEXT CLASSIFICATION
GitHub

论文目的

Hierarchical text classification (HTC) 会有数据不平衡和层级依赖的缺点，有local和global两种改进方向，hierarchy decoder (HiDEC)基于编码器、解码器的层次递归解码，The key idea of the HiDEC involves decoding a context matrix into a sub-hierarchy sequence using recursive hierarchy decoding, while staying aware of hierarchical dependencies and level information.

Proposed HTC Model

HTC可以看做图结构，一个层级用一个DAG（directed acyclic graph）
$G=(V,\hat E)$
where $V=\{v_1,...,v_c)\}$ 是层级中的C分类，
$\hat E=\{(v_i,v_j)|v_i\in V,v_j\in child(v_i)\}$ 是一系列的边（ $v_j$ 是 $v_i$ 的孩子）。
$D=\{d_1,..,d_K\}$ 是K个文档，每篇文档 $d_k$ 有一个子层级 $G^{d_{k}}=(V^{d_{k}},\hat E^{d_{k}})$
where $V^{d_k}=L^{d_k} \cup\{v_i^{d_k}|v_i^{d_k}\in ancestor(v_j^{d_k}),v_j^{d_k}\in L^{d_k}\}$ ，
and $\hat E^{d_k}=\{(v_i,v_j)|v_j\in V_{d_k},v_i\in parent(v_j)\}$ ，
where $L^{d_k}=\{v_1^{d_k},v_2^{d_k},...,v_t^{d_k}\}$ is label set document $d_k$ 。
即 $G^{d_{k}}$ 是文档 $d_{k}$ 对应的所有标签以及他们的祖先。
初始化时， $\hat G_0^{d_{k}}=(\{v_{root}\},\emptyset)$ 只有一个root，没有一条边，层次递归解码循环生成p次，使得 $\hat G_p^{d_{k}}=G^{d_{k}}$
在这里插入图片描述

Encoder

任何常用的encoder都可以在这个地方使用，毕竟本文主要的思想在decoder上
本文使用SRU（a simple recurrent unit）
one-hot vector for an index of the n-th token $T=[w_1,..,w_N]$
convert into word embeddings $H^0=W^0T \in|R^{N*e}$
$\overleftarrow H^l=\overleftarrow {SRU}^l(H^{l-1})$
$\overrightarrow H^l=\overrightarrow {SRU}^l(H^{l-1})$
$H^l=W^l[\overleftarrow H^l,\overrightarrow H^l]+b^l$

Hierarchy Decoder (HiDEC)

Hierarchy Embedding Layer

在这里插入图片描述
三个特殊符号"("、")"、"[end]"，其中"("、")“意味着类别路径的开始和结束，”[end]"意味着当前路径的结束。
上图通过这种策略形成的句子是S=[(R(A(D(I([END]))))(B(F([END])))(C([END])))]
the tokens in S are represented as one-hot vectors for further processing（one-hot）形成 $\hat S$
$\hat U^0=W^S\hat S -----------(2)$
$U^0=level-embedding(\hat U^0)-----------(3)$

Level-wise Masked Self-Attention

level-wise masking 仅保留从根到子层次结构的最大级别的祖先-后代依赖关系
decoder中第r层的query、key、value依照下式计算：
$Q=W^r_QU^{{r-1}^T}$
$K=W^r_KU^{{r-1}^T}$ ----------------------- (4)
$V=W^r_VU^{{r-1}^T}$
带有level-wise masking 的self-attention 分数
$\dot U^r=Masked-attention(Q,K,V)=softmax(\frac {QK^T}{\sqrt e}+M)V------(5)$
当两类不是ancestor-descendant关系时，将 $M_{ij}=-1e9$ , 考虑了三种特殊字符和其它字符（包括自己）的关系。
masking 矩阵M定义如下：
$M_{ij}=\begin{cases} -1e9 & if v_i \notin ancestor(v_j) \\ 0 & else & （6） \end{cases}$

Text-Hierarchy Attention

这部分对应的是transformer中decoder的cross-attention部分
decoder中第r层cross-attention的query、key、value依照下式计算：
$Q=W^r_Q\dot U^{{r-1}^T}$
$K=W^r_KH^{T}$ ----------------------- (7)
$V=W^r_VH^{T}$
cross-attention 分数
$\ddot U^r=Masked-attention(Q,K,V)=softmax(\frac {QK^T}{\sqrt e})V------(8)$
FFN
$U^r=FeedForward(\ddot U^r) ------(9)$