Convolutional Neural Networks for Sentence Classification 阅读笔记

最新推荐文章于 2024-10-15 19:19:54 发布

CCChenhao997

最新推荐文章于 2024-10-15 19:19:54 发布

阅读量329

点赞数 1

分类专栏： NLP 文章标签： textCNN

本文链接：https://blog.youkuaiyun.com/qq_35687547/article/details/102751802

版权

NLP 专栏收录该内容

19 篇文章

订阅专栏

本文介绍了使用卷积神经网络(CNN)进行句子分类的技术，详细解释了CNN在自然语言处理(NLP)领域的应用，包括模型架构、正则化技术、模型变体及其实验结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文链接: http://chenhao.space/post/b62604a1.html

Introduction

题目：Convolutional Neural Networks for Sentence Classification

来源：EMNLP 2014

本论文提出将CNN用在NLP的句子分类任务上，进行了一系列的对比实验。

Model

假设一个句子的长度为n，可以表示为(词向量 $x$ 为 $k$ 维)：
$x_{1:n}=x_1⊕x_2⊕...⊕x_n$
其中 $\oplus$ 表示concatenation operator，例如， $x_{i:i+j}$ 等于 $x_i,x_{i+1},...,x_{i+j}$ 的concatenation。

设过滤器filter的窗口的size为 $(h, k)$ ，一个feature $c_i$ 的计算公式为：
$c_i=f(w·x_{i:i+h-1}+b)$
其中 $w$ 是filter， $b$ 是bias， $f$ 是一个非线性函数。

This filteris applied to each possible window of words in thesentence ${x_{1:h},x_{2:h+1}, . . . ,x_{n−h+1:n}\}$ to produceafeature map.
$c=[c_1,c_2,...,c_{n-h+1}]$
然后经过max pooling操作，concate每个最大值，之后再经过一个全连接层和softmax，全连接层是为了改变维度变换，softmax实现二分类。

Regularization

在全连接层使用dropout，并对权重向量使用L2范数约束。dropout就是将max pooling后的结果随机mask一部分值。

假设我们有 $m$ 个filters，令 $z=[c_1,...,c_m]$ ， $y$ 为forward propagation的输出结果：
$y = w \cdot z + b$
使用dropout：
$y = w \cdot (z ◦ r) + b$
其中 $r$ 为masking向量。Gradients are backpropagated only through the unmasked units.

L2范数的作用是：L2会让 $w$ 的每个元素都很小，接近于0，但是不会等于0。而越小的参数模型越简单，越不容易产生过拟合，能防止模型overfit到某个feature上。

Model Variations

CNN-rand: 所有单词的词向量都是随机初始化的，然后在训练过程中进行训练。
CNN-static: 使用word2vec预先训练好的词向量模型。所有的词（包括随机初始化的未出现的词）保持静态，即使用静态词向量。只有模型的其他参数被训练。
CNN-non-static: 与上面相同，但是预训练的词向量针对每个不同任务进行微调（fine-tune）（也就是训练）。
CNN-multichannel: 两套词向量构造出的句子矩阵作为两个通道，在误差反向传播时，只更新一组词向量，保持另外一组不变。

Resultes

Others

why multichannel

We had initially hoped that the multichannel architecture would **prevent overfitting **( by ensuring that the learned vectors do not deviate too far from the original values ) and thus work better than the single channel model, especially on smaller datasets.