【每周一文】Supervised Sequence Labelling with Recurrent Neural Networks

最新推荐文章于 2025-11-16 07:22:43 发布

原创

最新推荐文章于 2025-11-16 07:22:43 发布 · 6k 阅读

·

6

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#NLP #序列化标注 #深度学习 #RNN #LSTM

本文介绍了NLP中的序列化标注问题，探讨了深度学习模型如FNN、RNN、Bi-RNN和LSTM在处理序列数据时的作用。重点讲解了RNN的演化，包括LSTM如何通过门控机制解决长期依赖问题。还提到了其他模型如CTC、多维RNN、层次RNN和注意力模型，并强调了它们在不同NLP任务中的适用性。

概述

序列化标注是NLP领域非常常见的问题，很多问题都可以归结为序列化标注问题，例如分类可以看做多对一的标注；词性标注属于一对一的标注；机器翻译属于多对多的标注。
深度学习在NLP上取得不错的效果，常用的模型有前向神经网络（FNN）、卷积神经网络（CNN）、循环神经网络（RNN、BIRNN）、LSTM、关注度模型（AM）等，对于特定任务还有相关变形
本文主要科普下各个模型的结构，方便在后续NLP任务中应用。

RNN技术演化

常见激活函数

在多层神经网络中，一般先进行线性变换，然后进行非线性变换。如果多层神经网络只进行线性变换可以证明和一层网络一致。常见的非线性变换函数，也叫激活函数，如下：
这里写图片描述

常用的以sigmoid和tanh为主，他们都是将实数区间转换为固定区间（0，1）或者（-1,1）

前向神经网络（FNN）

FNN也称之为多层神经网络，主要结构如下：
这里写图片描述

FNN 整体分为三层，输入层、隐含层和输出层，可以理解为输入层为原始特征层常常表示为向量结构；隐含层为特征非线性变换层；输出层为特征变换后的结果。
输入层表示为：x
隐藏层表示为 $a h = \sum i = 1 I w i h x i b h = θ h (a h)$ $a_h=\sum_{i=1}^I w_{ih}x_i \\ b_h=\theta_h(a_h)$
输出层表示为 $a o = \sum i = 1 H L w i o b i$ $a_o=\sum_{i=1}^{H_L} w_{io}b_i$
模型层：一般会根据不同的问题选择不同的模型或者损失函数，对于回归问题均方差；二分类问题采用sigmoid变换采用对数损失；多分类问题采用softmax；以二分类为例 $y = s i g m o i d (a o) - l (z i, x i) = z i l n (y) + (1 - z i) l n (1 - y)$ $y=sigmoid(a_o) \\ -l(z_i,x_i)=z_i ln(y) + (1-z_i)ln(1-y)$
模型计算，可以采用标准的BP算法进行求解，即采用链式规则求解，这里不再赘述。

循环神经网络（RNN）

简单的FNN不太适用于NLP，主要原因是没有考虑上下文特征，如果仅仅考虑前一个词特征，可以考虑使用RNN，结构如下：
这里写图片描述
1. 该图看上去比较复杂，可以简单的理解为计算某个神经元时，除了考虑当前输入外，还要考虑上一时间点隐藏状态值，从公式看一目了然

a t h = \sum i = 1 I w i h x t

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。