[NLP] 实体链接论文阅读—Entity Linking for Chinese Short Texts Based on BERT and Entity Name Embeddings

最新推荐文章于 2025-07-27 08:00:00 发布

原创

最新推荐文章于 2025-07-27 08:00:00 发布 · 4.4k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #自然语言处理

Entity Linking for Chinese Short Texts Based on BERT and Entity Name Embeddings

写在前面：
最近在阅读实体链接论文，实体消歧是实体链接必须有的步骤，而实体链接的前一步为实体识别，对于只想知道本文到底用什么方法进行实体消歧并实体链接的，请直接移步第三部分Model架构的描述。这次直接用raw markdown写了，尝试过用线上编辑器hackmd或是mac自带的pages，问题都出在图片的问题，才发现imgur的图床原来不能直接连，然后pages排版要在博客发表又要重新编辑加上简繁转换等很麻烦der东西，所以直接写raw markdown了啊。原文编撰的不是很用心，很多重要的细节只套用个公式不对变量加以说明就带过，而且连引用的公式都出错。包含从Transformer引用的position encoding和后面的BERT-ENE模型连名字都打错，嗯…没关系我们只是要去了解架构对吧。

Abs.

传统实体链接任务主要是针对长文本，拥有完整的上下文信息，有助于实体识别与实体消歧。由于口语化、方言和短文本不足的上下文，中文短文本实体链接尚具挑战。
整个实体链接过程包含两个任务：实体识别和实体消歧。

实体识别

使用知识库内的文本描述信息来提高实体识别的表现，提出了BERT-EntityNameEmbedding (BRT-ENE) 模型。
特别是实体的词向量迁入是由知识库中实体的描述文本从中挖掘而来。
短文本内的候选实体用名称辞典匹配技术得到。
最后结果再用BERT-ENE模型过滤，完成实体识别任务。

另外还提出了BERT-ENE模型与BERT-CRF模型的组合，可以跟传统方法显著改善识别效果。

实体消歧

视为二分类模型，将预测的概率排序。最高概率的实体当作正确实体。基于本文提出的方法，我们在CCKS2019的中文短文本实体链接任务中得到了第一名。

1 Introduction

实体链接过程

网络上的数据包含了大量的命名实体，然而这些实体的含义通常很模糊，特别是当命名实体频繁出现时。一个实体可能有许多名称，仅仅单一个名称可能代表着数个不同命名实体，再来，随着诸如Wikipedia之类的知识共享社区的出现，信息提取技术的迅速发展促进了大规模知识库的自动构建，知识库包含了实体、实体自身信息和实体之间的信息。知识库的自动构建涉及到网络文本的关系抽取，然后再加入到知识库内。在这个阶段，要将抽取出的实体进行消歧，就叫做实体链接 (Entity Linking)。实体链接任务将已识别的实体引用映射到现有知识库中的正确实体对象。

本文提出的方法旨在解决CCKS2019任务2：中文短文本实体链接。知识库数据由百度提供，长度最多为50个字符，平均在27个字符。数据采样在下列的text/mention中能看到。

在此范例中，句子含有16个字符，5个实体，其中有单一字符的实体'诗'。从这里我们能看到这个任务的困难度。相较于更长的文本以及英语文本，中文短文本实体链接有更大的困难。

text:
求一些亦正亦邪的人物的性格描写《有所思》萧衍的诗南北朝诗人

mention:
人物, 性格, 有所思, 萧衍, 诗, 南北朝, 诗人

BERT-CRF模型只能使用短文本信息，而不能利用知识库的信息。因此，仍然会存在诸如实体边界识别错误和实体识别不完整等问题。为了弥补这些不足并充分利用知识库的信息，我们提出了BERT-ENE模型。对于实体消歧的子任务，我们将其视为二分类问题，并使用基于BERT的二分类模型对候选实体消歧。

主要的创新点在于：

预训练模型技术性的部署在短文本的实体识别和消歧中，充分提取短文本的语义信息。
实体识别过程中，引入实体名称的向量嵌入 (embedding) ，充分利用知识库的文本描述信息，解决短文本信息量太少的问题。
提出一种结合BERT-ENE模型和BERT-CRF模型的新模型，大大提高实体识别的有效性。

2 Related Work

本文采取的两种子任务的解决办法：

实体识别子任务：主要基于匹配技术使用命名实体识别与名称辞典。
实体消歧子任务：采取二分类的思想来完成消歧。

鉴于命名实体识别策略不能完全认出文本中所有候选实体，研究人员使用基于名称词典的匹配技术去增进效能，名称辞典是从知识库中抽取而来的。词典中的每个名称都是一个keyword(关键字)，我们可以使用不同方法得到候选实体，其中有许多精确匹配的策略。为了增加召回率(recall)，(Zheng et al.)使用用字串匹配规则的宽松匹配而不是精确匹配；为了增加精确率(precision)，有些研究使用经验概率去选择候选实体。现存针对选择匹配结果的方法大部分都基于规则或是概率，缺少了深度学习模型的优点。

当前主要有三种实体消歧方法，例如基于rank、基于二分类方法、基于图模型方法。下一步我们专注在探讨二分类方法，直接与我们的工作相关。

二分类方法：mention和候选实体的关联特征通常用于训练二分类模型，这个模型可以确定候选实体是否为正例，例如：

(Pan et al.)抽取了包含单词特征、单词目录和命名实体目录的特征，再使用SVM分类。

传统机器学习方法依赖大量手工特征，特征的品质会很严重的影响分类器的效能，例如：

(Sun et al.)提出使用深度学习方法得到mention、上下文和实体的语义表示。
(Huang et al.)提出深度与义关联模型来度量实体语义关联。
(Ganea et al.)通过实体嵌入(entity embedding)和局部上下文窗口注意力机制实现实体消歧。

3 Model

3.1 Data Preprocessing

训练数据：

text：文本
ment_data：包含mention和kb_id栏位

知识库：

subject_id：主体ID
subject：主体
alias：别名
data：包含多个predictate(谓词)和object(对象)栏位
…等

Introducing a new alias 引入新的别名：对数据集进行统计分析后，发现训练集中少数实体名称跟在实体库中不匹配，例如：

安妮 '海瑟薇：文本中有特殊字元
新浪微薄：输入文本中的实体名称错误
国家质检总局：知识库没有此别名

为了解决像上述例子的问题，引入了对应于知识库中实体的新别名，步骤如下：

对于错误1，规范特殊字元并将处理后的名称添加到相应实体的别名。例如所有中文标点符号都转换成英文标点符号。
对于错误2和错误3，计算实体不匹配的次数 $E_{num}$ ，训练集中实体E不匹配的所有字串 $M_1,M_2,...,M_i$ 的出现次数，以及每个 $M_i$ 的出现次数 $M_{i_{num}}$ 。如果 $E_{num}>4$ 且 $M_{i_{num}}>3$ ，就将字串 $M_i$ 添加到实体E的别名。

Construction of entity description text 构造实体描述文本：将数据中的predicate(谓词)和object(对象)连接，得到实体描述文本。为了方便后续处理，再根据以下规则截断文本：谓词和宾语的长度>30时按比例截断，否则不截断。

Name dictionary construction 构造名称词典：根据实体名称、实体别名、实体名称的小写字母和上面新引入的别名构成。构造名称词典后，每个实体名称对应一个或多个实体ID。例'victory':[‘10001’, ‘19044’, ‘37234’, ‘38870’, ‘40008’, ‘85426’, ‘86532’, ‘140750’]。