文章目录
1. BiLSTM-CRF命名实体识别概要
假设有一个数据集,其中有两个实体类型,Person和Organization。但是,事实上,在我们的数据集中,我们有5个实体标签
B-Person
I- Person
B-Organization
I-Organization
O
设x是一个包含5个单词的句子:w0,w1,w2,w3,w4。在句子x中,[w0,w1]是一个Person实体,[w3]是一个Organization实体,其他都是“O”
1.1 模型介绍
BiLSTM-CRF模型总体结构图如图1所示

- 首先,将句子x中的每个单词表示为一个向量,其中包括单词的嵌入和字符的嵌入。字符嵌入是随机初始化的。词嵌入通常是从一个预先训练的词嵌入文件导入的。所有的嵌入将在训练过程中进行微调。
- 第二,BiLSTM-CRF模型的输入是这些嵌入,输出是句子x中的各个单词的预测标签的分数。如图2所示,BiLSTM层的输出是每个标签的分数。例如,对于w0, BiLSTM节点的输出为1.5 (B-Person)、0.9 (I-Person)、0.1 (B-Organization)、0
本文详细介绍了BILSTM-CRF模型在命名实体识别(NER)任务中的应用,重点讲解了CRF层的作用,包括发射矩阵、转移矩阵、CRF损失函数和实际路径得分计算。通过实例分析了如何避免不良标签序列,并展示了CRF如何学习有效约束。文章还探讨了在推理阶段如何利用动态规划的维特比算法高效解码,以确定最佳标签序列。
订阅专栏 解锁全文
1657

被折叠的 条评论
为什么被折叠?



