神经网络架构全解析:从基础到高级应用
1. 神经网络基础与创新架构
传统观念里,神经网络的计算单元常由作用于输入线性组合的压缩函数定义,隐藏层一般不接收输入,损失也通常不在隐藏层的值上计算。然而,神经网络其实可定义为任何类型的参数化计算图,反向传播算法并不依赖这些限制条件。实际上,中间层也可以进行输入和损失计算,只是这种情况相对少见。例如,受随机森林概念启发的神经网络,允许在网络的不同层进行输入,这使得输入层和隐藏层的界限变得模糊。
在基本前馈架构的其他变体中,损失函数不仅在输出节点计算,也在隐藏节点计算。隐藏节点的贡献通常以惩罚项的形式出现,起到正则化的作用。比如,通过对隐藏节点施加惩罚来进行稀疏特征学习,这种方式模糊了隐藏层和输出层的区别。
还有一种设计选择是使用跳跃连接,即特定层的输入可以连接到不止下一层。这种方法催生了真正的深度模型,如 152 层的 ResNet,在图像识别任务中达到了人类水平的性能。与传统前馈网络不同,这种网络的连接不仅限于相邻层,它对特征工程有迭代的观点,后续层的特征是对前一层特征的迭代细化,而传统特征工程是分层的,后续层的特征是从前面层获得的越来越抽象的表示。
2. 非常规操作与和积网络
一些神经网络,如长短期记忆网络和卷积神经网络,定义了各种类型的乘法“遗忘”、卷积和池化操作,这些操作并非严格符合本章讨论的形式。如今,这些架构在文本和图像领域应用广泛,已不再被视为特殊架构。
和积网络是另一种独特的架构,其节点分为求和节点和乘积节点。求和节点类似于传统的线性变换,带有一组加权边,但权重被限制为正数。乘积节点则直接将输入相乘,无需权重。乘积的计算方式有多种变化,例如输入为两个标量时,可直
超级会员免费看
订阅专栏 解锁全文
3469

被折叠的 条评论
为什么被折叠?



