CopyNet

最新推荐文章于 2024-08-30 09:59:50 发布

置顶 will Xu

最新推荐文章于 2024-08-30 09:59:50 发布

阅读量5.1k

点赞数 4

CC 4.0 BY-SA版权

分类专栏：机器学习 Deep Learning NLP

本文链接：https://blog.youkuaiyun.com/xvshiting/article/details/82216112

NLP 同时被 3 个专栏收录

3 篇文章

订阅专栏

机器学习

2 篇文章

订阅专栏

Deep Learning

2 篇文章

订阅专栏

本文作者分享对CopyNet的个人理解。CopyNet属于seq2seq模型，包含encoder和decoder两部分，其decoder分为Generate-Mode和Copy-Mode，能较好处理OOV问题。文中介绍了encoder和decoder的具体结构、词汇类别划分，以及不同模式下的计算方式和状态更新方法。

CopyNet 个人理解

之前了解过seq2seq模型，最近因为一些原因想要深入了解下copyNet 和 pointNet 。我首先读了《Incorporating Copying Mechanism in Sequence-to-Sequence Learning 》这篇比较经典的论文，接下来就简单介绍一下论文中模型的结构以及自己的一些理解。

简单来说，copyNet 还是属于seq2seq类型的模型，它也包含了encoder 和 decoder 两个部分。和比较经典的基于LSTM 或 RNN 的seq2seq 模型相比，他主要的区别是在copyNet 的decoder 部分分为了 Generate-Mode 和 Copy-Mode，Generate-Mode 主要任务是根据语义来决定输出，而Copy-Mode 就是根据输入文本的位置来决定copy。并且在decoder过程中，上一个step的输出作为当前step输出的形式有所不同。

copyNet的优势是能够比较好的处理 OOV 问题，比如人名、地名等等，因为他可以直接把这部分内容copy到输出中。论文中也使用copyNet 在文本摘要这个问题上进行了测试和评估。
copyNet structure

上面这个图是copyNet 的整体架构，初次看这张图有点懵逼。但是读完之后，再去看这个图就感觉清晰明了。

1.Encoder

encoder部分和普通seq2seq并没有什么太大区别，在论文中使用了双向RNN，也就是上图中的左下角部分。RNN每个time_step的输入就是当前词的embedding 向量，至于embedding 是采用word2vec 还是 glov 或者随着模型进行训练，我觉得都可以，在图中直接用词来表示了，其实应该是词对应的词向量 $h_{t}$ 代表了RNN t 时刻(时刻就等于第几个词)的输出，所有的 $h_{t}$ 组成了M。M就包含了encoder 过程中每个时刻的输出。
另外，bi-RNN 最后的hidden-state

h t = f (x, h t - 1); c = φ ({h 1, . . ., h t}) (1)

$h_{t} = f(x,h_{t-1}) ;\quad c=φ(\{h_{1},...,h_{t}\}) \quad(1)$
（1）中的

cc $c$ 代表了context vector ，是对enecodr所有时刻hiden state 的一个代表，也就是输入的整句话经过双向RNN映射到的向量空间的向量表示形式。比如可以取最后一个时刻的hidden state。所以encoder 部分的输出就是M矩阵和context vector

c

$c$ 。

2.Decoder

传统RNN decoder
$s t = f (y t - 1, s t - 1, c) (2) p (y t | y < t, X) = g (y t - 1, s t, c) (3)$ $\begin{split} s_{t} = f(y_{t-1},s_{t-1},c)\quad(2)\\ p(y_{t}|y<t,X)=g(y_{t-1},s_{t},c) \quad(3) \end{split}$

$y_{t-1}$ :t-1 时刻decoder 的输出。论文后面的 $y_{t-1}$ 有些不同
$s_{t-1}$ :t-1时刻 decoder 的状态，在这里不要与hidden state 混淆。
$c$ : encoder 部分提到的 context vector
$s_{t}$ :当前时刻decoder的状态，由 $y_{t-1},s_{t-1},c$ 计算得到。

(3)中的g(z)函数用来计算实际输出。能够看出，当前的state，上一个时刻的输出，以及context vector 决定了deocder 最终的输出。

词汇类别的划分

这里写图片描述

$X$ ：出现在输入语句中的词汇
$V$ : embedding矩阵中包含的已知词汇
$UNK$ ：unknown word，输入语句和已知词汇中都不包含的词汇
上图体现了copyNet 对不同种类词汇，计算score时的差异。
Copy-mode 负责计算出现在输入中的词汇（ $X$ ）的score 。 $\psi_{c}$
Generate-mode 则负责计算其他词汇的score. $\psi_{g}$
对于同时出现在 $V$ 和 $X$ 中的词汇，就需要同时用两个mode来评估。

这里写图片描述

上面图中的公式展示了copy和generate mode 在做预测时的细节。

Generate Mode

$\psi_{g}(y_{t}=v_{i})=v_{i}^TW_{o}s_{t}，\quad v_{i}\in \nu \cup UNK \quad (7)$

generate Mode 主要根据原语句含义进行推断。 $(7)$ 中的 $v_i^T$ 为one-hot 向量，比如『你好』这个词在词表 $\nu$ 中的index为3，则 $v_{你好}^T=\{0,0,1,…,0\}$ .通过 $\psi_g$ 可以得到已知词表和UNK的每个词的score.

Copy Mode

$\psi_c(y_t = x_j)=\sigma(h_j^TW_c)s_t, \quad x_j \in \chi \quad (8)$

copy Mode 主要用来根据原语句的位置信息进行复制。 $h_j^T$ 是M矩阵中的第 $j$ 列，也就是 encoder RNN 中第 $j$ 个词（time step）对应的输出。 $\sigma$ 是一个激活函数，论文中提到选用 $tanh$ 效果比较好。这样得到的是原输入中 $x_j$ 这个词作为本时刻输出的score。

State Update (重点)

$（7）$ 和 $（8）$ 看起来只是针对不同类型词汇，在计算相应score的时候方式上有所差异。 $\chi$ 中的词我们用每个词本身以及decoder当前状态去计算该词可能作为输出的概率。而对于 $\nu$ 中的词则只用decoder 当前的状态 $s_{t}$ 。为什么 $s_t$ 可以即被用在copy-mode 也能被用在 generate-mode? 这和其更新方式有很大关系，简单来说， $s_t$ 的更新依赖于 $t-1$ 时刻输出的词汇所属类别。下面根据论文公式解释一下。

论文中出现的t-1时刻的输出为 $y_{t-1}$ ,这里的输出和我一般理解的输出不一样。一般来讲，最后的输出为 $softmax(z)$ 。不精确的来讲这里指代的是 $argmax(softmax(z))$ ，之所以说不精确，是因为这里softmax要使用 copy-mode 和 generate-mode 两者logits 的累加。

$y_{t-1}$ :t-1 时刻输出，是一个词汇的index

论文对 $y_{t-1}$ 做了下面一些事情…..