K-BERT

最新推荐文章于 2023-09-19 12:05:18 发布

我黑切呢**

最新推荐文章于 2023-09-19 12:05:18 发布

阅读量594

点赞数 1

本文链接：https://blog.youkuaiyun.com/qq_43390809/article/details/113498213

版权

在这里插入图片描述

  K-BERT: Enabling Language Representation with Knowledge Graph
  https://github.com/autoliuweijie/K-BERT.

Motivation

弥补语言模型缺乏领域知识的弊端

摘要

预先训练的语言表示模型，如BERT，从大规模语料库中获取一般的语言表示，但缺乏特定领域的知识。阅读一篇领域文本时，专家用相关知识进行推理。为了使机器能够实现这一功能，作者提出了一种基于知识的语言表示模型，其中三元组作为领域知识注入到句子中。然而，过多的知识整合可能会使句子偏离其正确的含义，这就是所谓的知识噪音（KN）问题。为了克服KN，K-BERT引入了soft-position and visible matrix 来限制知识的影响。K-BERT可以通过配备KG轻松地将领域知识注入到模型中，而无需自行预训练，因为它能够从预训练的BERT加载模型参数。

介绍

pre-train刷新了各种NLP任务的SOTA，但是在特定领域（如医药）表现不加，一个方法是重新训练个强调领域知识的pre-train model，但是计算成本太高。此外，作者考虑到将KG融入集成到语言表示模型中，使其具备领域知识。但是，这种集成面临两个挑战：

Heterogeneous Embedding Space (HES)：一般情况下，文本中文字的嵌入向量和KG中实体的嵌入向量是分开获取的，使得它们的向量空间不一致。
Knowledge Noise (KN):过多的知识融入可能会使句子偏离其正确的意思。
K-BERT由此而生：

Methodology

Notation

对于一个句子： $s$ = { $w_0$ , $w_1$ , $w_2$ , …, $w_n$ }， $n$ 为句子的长度。英语句子为word-level，本文针对character-level的中文句子。
其中，每一个token都包含在词表 $V$ 内。KG表示为 $K$ ，包含一系列三元组： $ε$ = { $w_i$ , $r_j$ , $w_k$ }， $w_i$ 和 $w_k$ 为实体名称， $r_j$ ∈ $V$ 是他们之间的关系。所有的三元组均在 $K$ 内，即 $ε$ ∈ $K$ 。

Model architecture

K-BERT的模型架构由四个模块组成（如下图），即knowledge layer, embedding layer, seeing layer and mask-transformer。对于一个输入句子，knowledge layer首先从一个KG注入相关的三元组，将原始句子转换成一个知识丰富的句子树。然后句子树被同时馈入embedding layer和seeing layer。然后转换成token-level嵌入表示和可见矩阵。可见矩阵用于控制每个token的可见区域，防止因注入过多知识而改变原句的意思。
在这里插入图片描述