Recurrent Convolutional Neural Networks for Text Classification 阅读笔记

最新推荐文章于 2024-08-24 09:19:24 发布

CCChenhao997

最新推荐文章于 2024-08-24 09:19:24 发布

阅读量492

点赞数

分类专栏： NLP 文章标签： textRCNN

本文链接：https://blog.youkuaiyun.com/qq_35687547/article/details/102751815

版权

NLP 专栏收录该内容

19 篇文章

订阅专栏

提出一种结合RNN和CNN的RCNN模型，用于文本分类任务，能有效捕获语义信息，实验证明在文档级数据集上效果显著。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文链接: http://chenhao.space/post/93d3104e.html

Introduction

题目：Recurrent Convolutional Neural Networks for Text Classification

来源：AAAI2015

本文提出了一种将RNN结构和CNN结构结合起来的一种模型，能够更好的获取语义信息。

利用RNN循环结构捕获上下文信息，利用CNN中的max-pooling方法提取文本中的重要特征，根据这些特征来进行文本分类。实验结果表明，该模型在document-level的数据集上表现的更好。

RCNN结构图

传统的特征表示方法会忽略上下文信息和词的顺序，以至于不能很好的捕捉到词的语义信息，如one-hot编码。

N-gram语言模型会产生数据稀疏的问题（数据稀疏介绍看这里：N-gram语言模型中的数据稀疏）。

Word embedding是一种分布式的词表示方法，很好的解决了数据稀疏的问题，并且可以捕捉有意义的句法和语义规律。

Recursive Neural Network（RecursiveNN）:

优点：建立句子表示有效
缺点：它捕获句子的语义是通过文本树结构，性能也是在很大程度上依赖文本树结构；耗时；两个句子之间的关系很难用树结构来表示，所以RecusiveNN不适合建模长句子或者文档级文本。
时间复杂度 $O(n^2)$

Recurrent Netural Network（RecurrentNN）：

优点：耗时短；能够捕捉上下文信息，有助于捕获长文本的语义。
缺点：有偏模型（biased model），在文本后面的词所占的比重比之前的词要大。
时间复杂度 $O (n)$

Convolutional Neural Network（CNN）：

优点：无偏模型（unbiased model），通过max-pooling提取重要特征，比RecursiveNN和RecurrentNN在提取文本语义方面更好。
缺点：CNN使用简单的卷积核作为固定窗口。但是这种内核很难确定窗口的大小，窗口小了会丢失一些关键信息，窗口大了会导致出现一个很难训练的大参数空间。
时间复杂度 $O (n)$

Recurrent Convolutional Netural Network（RCNN）：

优点：
- 使用双向RNN结构，比传统的基于窗口的神经网络引入更少的噪声。
- 学习到的词表示可以最大程度上捕获到上下文信息。
- 文本表示时可以保存更大范围的词序。
- 结合recurrent structure和max-pooling，利用了RNN和CNN的优势。
时间复杂度 $O (n)$ ，因为Recurrent structure的时间复杂度时 $O (n)$ ，pooling layer时间复杂度也是 $O (n)$ ，并且它们时串联的，所以整个模型的时间复杂度时 $O (n)$ 。

Model

注释图

模型的输入是由词序列 $w_1,w_2,...,w_n$ 表示的文档 $D$ ，输出是预测文档 $D$ 属于那一类。我们用 $p (k ∣ D, θ)$ 表示文档 $D$ 属于类别 $k$ 的概率，其中 $θ$ 是模型中的参数。

Word Representation Learning

我们用一个词及其上下文来表示这个词，这样可以获得更准确的词意。

其中， $w_i$ 表示第 $i$ 个词， $c_l(w_i)$ 表示单词 $w_i$ 左边的上下文信息， $c_r(w_i)$ 表示单词 $w_i$ 右边的上下文信息。

因为第一个词的左边没有上下文信息，最后一个词的右边没有上下文信息，所以我们设置一个共享参数 $c_l(w_1)$ 和 $c_r(w_n)$ 分别作为第一个词的左边上下文信息、最后一个词右边的上下文信息。

$e(w_{i-1})$ 表示词 $w_{i-1}$ 的word embedding， $W^{(l)}$ 是一个将hidden layer（context）转换成下一个 hidden layer 的矩阵参数， $W^{(sl)}$ 是将当前词同它下一个词的左上下文相结合的矩阵。 $f$ 是一个非线性激活函数。

我们定义词 $w_i$ 的表示为：
$\Large x_i=[c_l(w_i);e(w_i);c_r(w_i)]$
将左侧的上下文向量 $c_l(w_i)$ 、word embedding $e(w_i)$ 和右侧上下文向量 $c_r(w_i)$ concate。

这种方式利用了上下文信息，与CNN相比能够更好的消除词 $w_i$ 词意的模糊性，因为CNN使用的是一个固定的窗口（仅仅使用到了部分信息）。

然后再将 $x_i$ 作线性变化，经过 $t a n h$ 激活函数得到 $y_i^{(2)}$ ：
$\Large y_i^{(2)}=tanh(W^{(2)}x_i+b^{(2)})$
$y_i^{(2)}$ 是一个浅语义向量（latent semantic vector in which each semanticfactor will be analyzed to determine the most useful factorfor representing the text.）

Text Representation Learning

$\Large y^{(3)}=\max_{i=1}^ny_i^{(2)}$

取 $y_i^{(2)}$ 每一维的最大值组成 $y^{(3)}$ ，这个过程也就是 Max-pooling 过程。

Max-pooling 可以将不同长度的文本转换成固定长度的向量表示，并且可以捕获整个文本的信息。

这里作者提到了为什么不用 average pooling ，因为只有很少一部分词或者词组是对捕获文档信息有用的，max-pooling 可以在文档中找到最重要的潜语义信息。

然后再经过线性层和softmax，得到分类结果的概率。

线性层：
$\Large y^{(4)}=W^{(4)}y^{(3)}+b^{(4)}$
Softmax：
$\Large p_i=\frac{exp(y_i^{(4)})}{\sum_{k=1}^{n}exp(y_k^{(4)})}$

Training

Training Network parameters

We define all of the parameters to be trained as $θ$ ：
$\large θ={E,b^{(2)},b^{(4)},cl(w_1),cr(w_n),W^{(2)},W^{(4)},W^{(l)},W^{(r)},W^{(sl)},W^{(sr)}}$
Training的目标是使最大似然函数的参数 $θ$ ：