卷积神经网络在文本处理及经典架构中的应用
1. 文本输入与卷积神经网络
1.1 词嵌入与卷积神经网络
在处理文本数据时,假设所有训练数据以带有标签的句子形式存在,且句子有给定的最大长度 $s$。首先要将句子转换为向量表示,常见的方法是对句子中的每个单词执行查找函数,获取其固定维度的表示,即词嵌入。假设在固定词汇量 $V$ 中查找词表示会得到固定维度为 $d$ 的向量,那么每个向量可映射到 $R^d$。句子就可以表示为一个实矩阵 $X \in R^{s×d}$,矩阵的行代表句子中的单词,列则是对应的固定长度向量。
在分类任务中,一个普遍的假设是,序列中相邻的单词(类似于 $n$ - 元语法)组合在一起可以形成复杂的高级特征。这与计算机视觉中局部像素组合形成线条、边缘和真实物体等特征类似。在计算机视觉的图像表示中,卷积层使用尺寸小于输入的滤波器,通过在图像块上滑动来执行卷积操作。在文本挖掘中,卷积的第一层滤波器通常与输入具有相同的维度 $d$,但高度 $h$ 不同,通常称为滤波器大小。
例如,对于句子 “The cat sat on the mat”,分词后有 $s = 6$ 个单词。通过查找操作,每个单词获得一个 3 维的词嵌入($d = 3$)。一个高度或大小为 $h = 2$ 的单个卷积滤波器开始生成特征图,输出经过阈值为 0.0 的 ReLU 非线性激活函数,然后输入到 1 - 最大池化层。
在实际应用中,输入单词可能有多种表示,类似于计算机视觉领域中图像的颜色通道。不同的词向量可以映射到通道,这些通道可以是静态的(即预训练的),使用知名语料库且不会改变;也可以是动态的,即使是预训练的,也可以通过反向传播进行微调。此外,除了词嵌入,
超级会员免费看
订阅专栏 解锁全文
4414

被折叠的 条评论
为什么被折叠?



