词性标注、序列标注与自注意力机制
1. 序列预测
在预测步骤中,最优序列由以下公式给出:
[
\underset{\mathbf{y}}{\text{arg max}} \sum_{j = 1}^{N} \sum_{i = 1}^{K} w_{i} f_{i}(y_{j - 1}, y_{j}, \mathbf{x}_{j})
]
这里我们忽略分母,因为对于所有序列和指数项来说它都是相同的。然而,我们无法提前获取 $\mathbf{y}$。我们可以使用暴力方法:生成所有可能的序列并保留概率最高的那个,也就是最佳标签序列。但这种方法的扩展性很差,因此我们需要采用维特比搜索,就像之前提到的那样。
2. 在 LSTM 网络中添加 CRF 层
在实际应用中,指示函数的潜在数量可能非常大,这使得选择变得棘手。为了解决这个问题,我们可以参考 Lample 等人(2016)的方法,他们为命名实体识别实现了一个序列标注器。他们提出了一种流水线架构,在双向 LSTM 中添加了一个 CRF 层。该模型的具体步骤如下:
1. 输入 :由词嵌入序列或词嵌入与字符组成。作者使用 skipgram 算法来推导词嵌入。
2. 双向 LSTM 层 :将嵌入传递到双向 LSTM 层。
3. 线性层 :LSTM 的输出传递到线性层,得到一系列标签预测。在序列的索引 $i$ 处,每个可能的标签都与一个对数几率相关联。我们可以通过应用 softmax 函数将这些对数几率转换为概率。
4. CRF 层
超级会员免费看
订阅专栏 解锁全文
1229

被折叠的 条评论
为什么被折叠?



