循环神经网络的应用探索
1. 带语言特征的词元级分类
词元级分类在信息提取和文本分割等领域有着广泛的应用。在信息提取中,需要识别出对应人物、地点或组织的特定单词或单词组合。与典型的语言建模或机器翻译应用相比,单词的语言特征(大小写、词性、拼写等)在这些应用中更为重要。
1.1 命名实体识别示例
以命名实体识别应用为例,每个实体要被分类到人物(P)、地点(L)和其他(O)这几个类别中。训练数据中的每个词元都有相应的标签,例如:
William P
Jefferson P
Clinton P
lives O
in O
New L
York L
.
在实际应用中,标注方案通常更为复杂,因为它会编码具有相同标签的连续词元集的开始和结束信息。对于测试实例,词元的标注信息是不可用的。
1.2 循环神经网络模型
循环神经网络的定义与语言建模应用类似,不同之处在于输出由标签而不是下一组单词定义。在每个时间步 t,输入是词元的独热编码 $x_t$,输出 $y_t$ 是标签。此外,在时间步 t 还与词元相关联有一组 q 维的语言特征 $f_t$,这些语言特征可能编码了大小写、拼写等信息。
隐藏层从词元和语言特征接收两个独立的输入,对应的架构如图所示。还有一个 $p \times q$ 的矩阵 $W_{fh}$ 将特征 $f_t$ 映射到隐藏层。每个时间步 t 的递归条件如下:
$h_t = \tanh(W_{xh}x_t + W_{fh}f_t + W_{hh}h_{t - 1})$ <
超级会员免费看
订阅专栏 解锁全文
4878

被折叠的 条评论
为什么被折叠?



