Tree-Structured LSTM

最新推荐文章于 2023-11-21 14:08:22 发布

连理o

最新推荐文章于 2023-11-21 14:08:22 发布

阅读量367

点赞数

CC 4.0 BY-SA版权

分类专栏：图模型文章标签： lstm 深度学习人工智能

本文链接：https://blog.youkuaiyun.com/weixin_42437114/article/details/125799925

图模型专栏收录该内容

4 篇文章

订阅专栏

本文介绍了如何将LSTM扩展到树形结构，提出了Child-Sum Tree-LSTM和NNN-ary Tree-LSTM模型，用于处理如依赖树和语法树等树形输入。这两种模型在语义相关性和语义分类任务上表现出色，通过树结构更好地捕获句子的结构信息。Child-Sum Tree-LSTM通过子节点隐藏状态的加权求和来融合信息，适合无序或分支大的场景；NNN-ary Tree-LSTM则针对有序且分支有限的场景，允许更细粒度的子节点信息抽取。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Introduction
Tree-Structured LSTMs
References

Introduction

LSTM (Long Short-Term Memory) 在序列模型任务上能够有非常好的表现，但该模型只能输入线性序列，无法很好地处理树形输入 (比如依赖树)，因此，论文提出两种 Tree-LSTM 模型，将 LSTM 拓展到树形的输入结构上 (在 NLP 领域，树型结构模型通过给定句子的语法结构树获取句子表示)，并在两个任务：预测语义相关性 (SemEval 2014, Task 1) 和语义分类任务 (Stanford Sentiment Treebank) 上超过所有现存模型

Tree-Structured LSTMs

LSTM

$i_t,f_t,o_t$ 分别为输入门、遗忘门、输出门。 $c_t$ 为记忆单元

Tree-Structured LSTMs

作者提出了两种 Tree-LSTM 结构：Child-Sum Tree-LSTM 和 $N$ -ary Tree-LSTM。和 LSTM 一样，Tree-LSTM 也含有输入门 $i_j$ 和输出门 $o_j$ ，记忆单元 $c_j$ 和隐藏状态 $h_j$ ，它们之间的区别在于 Tree-LSTM 的门向量和记忆单元的更新要基于多个 child units，它需要从多个孩子节点筛选出信息，而 LSTM 只需要从上一时刻筛选出信息 (The standard LSTM can then be considered a special case of the Tree-LSTM where each internal node has exactly one child.)

Child-Sum Tree-LSTMs

Child-Sum Tree-LSTMs：Tree-LSTM unit 针对结点的每个子结点 $k$ 都设置了一个遗忘门 $f_{jk}$ 来选择性地融合子结点中的重要信息；同时，Child-Sum Tree-LSTMs 通过对所有子结点的隐藏状态进行求和来得到一个融合后的隐藏状态 $\tilde h_j$
其中， $C (j)$ 为结点 $j$ 的子结点， $k\in C(j)$ . 由于该模型是直接将孩子节点的隐藏状态求和，因此，非常适合于分支因子比较大，或者孩子节点是无序的情况 (e.g. dependency trees)

$N$ -ary Tree-LSTMs

$N$ -ary Tree-LSTMs：该模型适用于分支因子最大为 $N$ 的情况，而且孩子节点有序，也就是说，孩子节点可以被从 1 到 $N$ 进行索引 (e.g. constituency tree, 语法树，注意处理语法树时，只有叶结点才会接收到输入词向量 $x_j$ )
其中， $h_{jk},c_{jk}$ 分别为结点 $j$ 的 $k$ th 子结点的隐藏状态和记忆单元。针对每个子结点设置单独的参数有利于 $N$ -ary Tree-LSTMs 抽取出更加细粒度的子结点信息。但对于遗忘门而言，虽然设置 $U_{kl}^{(f)}$ 有利于更细致地控制子结点到父结点的信息传播，例如，可以让左侧子结点的隐藏状态刺激或抑制右侧子结点的遗忘门，然而，当 $N$ 较大时，参数量会非常大，在这种情况下可以直接固定其参数或者置为零

Tree-LSTM Classification

对于结点 $j$ ，模型使用 softmax 的分类器来预测给定输入 ${x\}_j$ 下的标签 $\hat y_j$ ，分类器将该节点的隐藏状态 $h_j$ 作为输入：
损失函数使用交叉熵损失：
其中， $m$ 是含有标签的结点数， $\lambda$ 是 L2 正则化的超参数

Semantic Relatedness of Sentence Pairs

给定一个句子对，模型需要预测出一个实数值的相似度 score，范围为 $[1, K]$ ，其中， $K > 1$ 是一个整数，分数越高，表示相似度越大。我们首先基于句子的 parse tree 使用 TreeLSTM 产生两个句子的 representations $h_L$ 和 $h_R$ ，然后使用这两个向量预测出相似度 score $\hat y$ ，同时考虑两个向量的距离和角度：
其中， $r^T=[1,2,...,K]$ 。模型期望 $\hat y=r^T\hat p_\theta\approx y$ ，因此定义了一个稀疏的目标分布 $p$ 使得 $y=r^Tp$ ：
损失函数为 $p$ 和 $\hat p_{\theta}$ 之间的 KL 散度：