RCNN文本分类与tensorflow实现

最新推荐文章于 2022-11-11 20:18:13 发布

林ch

最新推荐文章于 2022-11-11 20:18:13 发布

阅读量3.4k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：文本分类

本文链接：https://blog.youkuaiyun.com/linchuhai/article/details/86985582

1. 引言

前面介绍了LSTM_CNN文本分类模型，虽然在CNN前加上一层LSTM层，可以提取文本中的序列信息，但是当文本的长度比较长时，LSTM提取信息的能力是有限的，并且，在LSTM中，每个词汇对应的隐藏状态都只包含了前面序列的信息，而没有考虑到后续序列的信息（BiLSTM除外），因此，本文将介绍一个新的模型结构，该结构采用一种递归CNN的形式，即每个词汇的向量表示既包括了其本身的词向量，也包括其前面序列和后面序列的上下文向量，从而使得每个词汇的向量信息更加丰富。

RCNN论文地址：《Recurrent Convolutional Neural Networks for Text Classification》

2. RCNN模型介绍

2.1 RCNN模型的结构

首先，对于每一个文本 $D$ ，用一串词汇序列 $w _ { 1 } , w _ { 2 } \ldots w _ { n }$ 表示，并且记该文本属于某一类别 $k$ 的概率为 $p ( k | D , \theta )$ ，其中， $\theta$ 表示模型中的参数。RCNN模型主要包含三部分，分别是递归CNN层、max-pooling层、输出层。

在递归CNN层，对于每个词汇，RCNN会递归地计算其左侧上下文向量和右侧上下文向量，然后将这两部分向量与当前词汇的词向量进行拼接作为该词汇的向量表示，如图1所示。记 $c _ { l } \left( w _ { i } \right)$ 、 $c _ { r } \left( w _ { i } \right)$ 分别为词汇 $w _ { i }$ 的左侧上下文向量和右侧上下文向量，它们都是长度为 $| c |$ 的实数向量，计算公式分别如下：

$\begin{array} { l } { c _ { l } \left( w _ { i } \right) = f \left( W ^ { ( l ) } c _ { l } \left( w _ { i - 1 } \right) + W ^ { ( s l ) } e \left( w _ { i - 1 } \right) \right) } \\\\ { c _ { r } \left( w _ { i } \right) = f \left( W ^ { ( r ) } c _ { r } \left( w _ { i + 1 } \right) + W ^ { ( s r ) } e \left( w _ { i + 1 } \right) \right) } \end{array}$