经典文献翻译《Convolutional Neural Networks for Sentence Classification》——2014年

《Convolutional Neural Networks for Sentence Classification》——2014年

Abstract 摘要

我们报告了一系列卷积神经网络(CNN)的实验,这些网络是在预先训练好的单词向量上训练的,用于句子的分类任务。我们证明了一个简单的CNN网络通过小的超参数调优和静态向量在多个基准测试中取得了很好的结果。通过微调来学习特定的任务的向量可以进一步提高性能。此外,我们还提出了一个简单的架构的修改,以允许使用特定的任务和静态向量。本文讨论的CNN模型在7个任务中的4个上改进了现有的技术,包括情感分析和问题分类。

1 Introduction 引言

近年来,深度学习模型在计算机视觉(Krizhevskyetal.,2012)和语音识别(Gravesetal.,2013)方面取得了显著的成果。在自然语言加工过程中,大部分深度学习方法的工作都涉及到通过神经语言模型学习词向量表示(Bengio等人,2003;Yih等人,2011;Mikolov等人,2013)和通过学习词向量进行分类(Collobert等人,2011)。词向量,其中的词是从稀疏的,1到v编码(这里的v是词汇量),通过隐藏层投影到一个低维向量空间,本质上是特征提取器在他们的维度上对词的语义特征进行编码。在这种稠密表示中,语义相近的单词(在欧氏距离或余弦距离中)在低维向量空间中同样接近。

卷积神经网络(CNN)利用应用于局部特征的卷积滤波器层(LeCun等人,1998)。最初为计算机视觉而发明的,后来CNN模型被证明对NLP是有效的,并且在语义分析(Yihetal.,2014)、搜索查询检索(Shenetal.,2014)、句子建模(Kalch-brenneretal.,2014)和其他传统的NLP任务(bertcolloetal.,2011)中取得了优异的结果。

在目前的工作中,我们训练了一个简单的CNN,它是从一个无监督神经语言模型中得到的基于词向量的简单CNN,其中包含一层卷积。这些向量由Mikolov等人(2013年)用1000亿个Google新闻单词进行训练,并且是公开可用的[1]。最初,我们使单词向量保持静态,仅学习模型的其他参数。尽管很少调整超参数,这个简单的模型在多个基准上取得了优异的结果,这表明预先训练的向量是可以用于各种分类任务的“通用”特征提取器。通过微调结果进一步改进学习特定于任务的向量。最后,我们描述了对体系结构的简单修改,以允许通过具有多个通道使用预训练向量和特定于任务的向量。

我们的工作在哲学上与Razavian等人(2014年)的研究相似,后者表明,对于图像分类,从预先训练的深度学习模型中获得的特征提取器在一系列任务中表现良好,包括与特征提取器训练的原始任务有很大不同的任务。

2 Model 模型

如图1所示模型架构,是Collobert等人(2011)提出的CNN架构的轻微变体。

x i ∈ R k \mathbf{x}_{i} \in \mathbb{R}^{k} xiRk 为句子中第i个单词对应的k维词向量。一个长度为n的句子(在必要时加上填充)表示为
x 1 : n = x 1 ⊕ x 2 ⊕ … ⊕ x n \mathbf{x}_{1: n}=\mathbf{x}_{1} \oplus \mathbf{x}_{2} \oplus \ldots \oplus \mathbf{x}_{n} x1:n=x1x2xn ————(1)

其中 ⊕ 为串联运算符。通常, x i : i + j \mathbf{x}_{i: i+j} xi:i+j 表示单词 x i , x i + 1 , … , x i + j \mathbf{x}_{i}, \mathbf{x}_{i+1}, \ldots, \mathbf{x}_{i+j} xi,xi+1,,xi+j 的串联。卷积运算涉及一个滤波器 w ∈ R h k \mathbf{w} \in \mathbb{R}^{h k} wR

### 回答1: 卷积神经网络 (Convolutional Neural Networks, CNN) 是一种常用于文本分类的深度学习模型。它通过卷积和池化层来提取文本中的特征,并使用全连接层来进行分类。 CNN 的一个优点是能够处理变长的输入,并且不需要对文本进行预处理。 ### 回答2: 卷积神经网络是一种深度学习方法,用于对文本进行分类。在训练过程中,这种网络可以自动学习输入数据的特征表示。卷积神经网络中的卷积层可以识别输入中的局部模式,这些局部模式组合起来形成更高级别的特征,最终帮助分类器确定类别。对于文本分类问题,卷积神经网络的输入是文本的词嵌入向量,可以从先验知识中自动学习特征。 在一些文本分类任务中,卷积神经网络已经取得了很好的表现。文本分类任务通常被分为两种类型:二元分类和多分类。二元分类任务是指将数据分为两类,例如垃圾邮件和非垃圾邮件。多类分类任务是指将数据分为多类,例如新闻分类。在这两种任务中,卷积神经网络都能够进行有效的分类。 对于二元分类任务,卷积神经网络可以使用一个输出节点,并使用 sigmoid 激活函数将输入映射到 0 到 1 之间的概率。对于多分类任务,卷积神经网络可以使用多个输出节点,每个节点对应一个类别,并使用 softmax 激活函数将输入映射到 0 到 1 之间,并且所有输出节点的和为 1。 要训练卷积神经网络进行文本分类,需要对模型进行三个主要的训练步骤。首先,需要构建词嵌入矩阵,该矩阵将文本中的每个词都映射到一个向量。然后,需要将文本数据转换为卷积神经网络所需的格式。最后,需要对模型进行训练,并根据测试数据进行评估。 总之,卷积神经网络已经被证明是一种强大的工具,可以用于文本分类等任务。在处理文本数据时,卷积神经网络可以自动学习输入数据的特征表示,并使用这些特征来确定文本的类别。 ### 回答3: 卷积神经网络(CNN)是一种深度学习模型,它在图像识别、计算机视觉和自然语言处理中表现出色。最近几,CNN 在句子分类中也获得了很大的成功。 CNN 句子分类模型的输入是一个序列,输出是类别标签。与传统的 RNN 模型不同之处在于,CNN 可以使每个神经元只能捕获一个固定大小的区域的特征,从而加快模型的训练和降低了模型的复杂度。 CNN 句子分类模型的基本架构包括词嵌入层、卷积层、池化层和全连接层。词嵌入层将输入的文本转化为向量表示。卷积层通过滑动窗口对输入的序列进行卷积操作,提取出局部特征。池化层在每个滑动窗口上提取出一个最大值或平均值,进一步降低维度。最后,全连接层将提取出的特征传递到输出层进行分类。 CNN 句子分类模型的优点在于它可以处理不定长的文本序列,并在仅有少量特征的情况下表现出色。但是,CNN 模型的缺点在于不善于处理长期依赖关系,例如情感分析中的Irony识别。为了解决这个问题,可以引入 RNN 或 Transformer 等模型。 总的来说,CNN 模型为句子分类问题提供了一个简单有效的解决方案。在实践中,需要根据具体的任务选择合适的模型结构和参数设置,才能取得最佳效果。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值