47、词性标注、序列标注与自注意力机制

最新推荐文章于 2025-09-08 12:07:26 发布

雪落无声360

最新推荐文章于 2025-09-08 12:07:26 发布

阅读量32

点赞数

CC 4.0 BY-SA版权

分类专栏：自然语言处理实战指南文章标签：词性标注序列标注自注意力机制

本文链接：https://blog.youkuaiyun.com/agile9scrum/article/details/151201125

自然语言处理实战指南专栏收录该内容

55 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

词性标注、序列标注与自注意力机制

1. 序列预测

在预测步骤中，最优序列由以下公式给出：
[
\underset{\mathbf{y}}{\text{arg max}} \sum_{j = 1}^{N} \sum_{i = 1}^{K} w_{i} f_{i}(y_{j - 1}, y_{j}, \mathbf{x}_{j})
]
这里我们忽略分母，因为对于所有序列和指数项来说它都是相同的。然而，我们无法提前获取 $\mathbf{y}$。我们可以使用暴力方法：生成所有可能的序列并保留概率最高的那个，也就是最佳标签序列。但这种方法的扩展性很差，因此我们需要采用维特比搜索，就像之前提到的那样。

2. 在 LSTM 网络中添加 CRF 层

在实际应用中，指示函数的潜在数量可能非常大，这使得选择变得棘手。为了解决这个问题，我们可以参考 Lample 等人（2016）的方法，他们为命名实体识别实现了一个序列标注器。他们提出了一种流水线架构，在双向 LSTM 中添加了一个 CRF 层。该模型的具体步骤如下：
1. 输入：由词嵌入序列或词嵌入与字符组成。作者使用 skipgram 算法来推导词嵌入。
2. 双向 LSTM 层 ：将嵌入传递到双向 LSTM 层。
3. 线性层 ：LSTM 的输出传递到线性层，得到一系列标签预测。在序列的索引 $i$ 处，每个可能的标签都与一个对数几率相关联。我们可以通过应用 softmax 函数将这些对数几率转换为概率。
4. CRF 层

会员秒杀 ¥9.9 重磅福利

超级会员免费看