自然语言处理中的前馈网络
1. 前馈网络概述
传统的感知机是最简单的神经网络,但它存在局限性,无法学习数据中稍微复杂的模式。例如在异或(XOR)问题中,决策边界不能用一条直线划分(即不具有线性可分性),感知机在这种情况下会失效。
为了克服感知机的局限性,我们探索了一类传统上称为前馈网络的神经网络模型,重点关注两种前馈神经网络:多层感知机(Multilayer Perceptron, MLP)和卷积神经网络(Convolutional Neural Network, CNN)。
1.1 多层感知机(MLP)
多层感知机在结构上扩展了简单的感知机,它将多个感知机组合在一层中,并将多层堆叠在一起。其核心思想是通过增加中间层,让模型学习到具有特定性质的中间表示,例如对于分类任务,学习到线性可分的中间表示。
1.2 卷积神经网络(CNN)
卷积神经网络深受数字信号处理中窗口滤波器的启发。通过窗口特性,CNN 能够学习输入中的局部模式,这不仅使其成为计算机视觉的主力军,也使其成为检测顺序数据(如单词和句子)子结构的理想选择。
2. 多层感知机详解
2.1 MLP 的结构
最简单的 MLP 由三个表示阶段和两个线性层组成:
- 输入向量 :提供给模型的向量。例如在餐厅评论情感分类的例子中,输入向量是 Yelp 评论的压缩独热表示。
- 隐藏向量 :第一个线性层根据输入向量计算得到的向量,它是输入层和输出层之间的层的输出。隐藏向量中的值可以看作是构成该层的不同感知机的
超级会员免费看
订阅专栏 解锁全文
1126

被折叠的 条评论
为什么被折叠?



