26、卷积神经网络在文本处理及经典架构中的应用

秃然暴富

于 2025-10-19 16:40:22 发布

阅读量6

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习赋能NLP与语音文章标签：卷积神经网络文本处理词嵌入

本文链接：https://blog.youkuaiyun.com/vscode6remote/article/details/155017125

深度学习赋能NLP与语音专栏收录该内容

57 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

卷积神经网络在文本处理及经典架构中的应用

1. 文本输入与卷积神经网络

1.1 词嵌入与卷积神经网络

在处理文本数据时，假设所有训练数据以带有标签的句子形式存在，且句子有给定的最大长度 $s$。首先要将句子转换为向量表示，常见的方法是对句子中的每个单词执行查找函数，获取其固定维度的表示，即词嵌入。假设在固定词汇量 $V$ 中查找词表示会得到固定维度为 $d$ 的向量，那么每个向量可映射到 $R^d$。句子就可以表示为一个实矩阵 $X \in R^{s×d}$，矩阵的行代表句子中的单词，列则是对应的固定长度向量。

在分类任务中，一个普遍的假设是，序列中相邻的单词（类似于 $n$ - 元语法）组合在一起可以形成复杂的高级特征。这与计算机视觉中局部像素组合形成线条、边缘和真实物体等特征类似。在计算机视觉的图像表示中，卷积层使用尺寸小于输入的滤波器，通过在图像块上滑动来执行卷积操作。在文本挖掘中，卷积的第一层滤波器通常与输入具有相同的维度 $d$，但高度 $h$ 不同，通常称为滤波器大小。

例如，对于句子 “The cat sat on the mat”，分词后有 $s = 6$ 个单词。通过查找操作，每个单词获得一个 3 维的词嵌入（$d = 3$）。一个高度或大小为 $h = 2$ 的单个卷积滤波器开始生成特征图，输出经过阈值为 0.0 的 ReLU 非线性激活函数，然后输入到 1 - 最大池化层。

在实际应用中，输入单词可能有多种表示，类似于计算机视觉领域中图像的颜色通道。不同的词向量可以映射到通道，这些通道可以是静态的（即预训练的），使用知名语料库且不会改变；也可以是动态的，即使是预训练的，也可以通过反向传播进行微调。此外，除了词嵌入，