实体消歧
定义:
实体消歧的本质在于一个单词很可能有多个意思,也就是在不同的上下文中所表达的含义可能不太一样。
简单实现
首先我们需要准备一个类似于下面的这种实体库:
id | 实体名 | 实体描述 |
---|---|---|
1001 | 苹果 | 美国一家高科技公司,经典的产品有Iphone手机 |
1002 | 苹果 | 水果的一种,一般产自于… |
… | … | … |
然后当我们拿到Text时,比如“今天苹果发布了新的手机”
我们可以将实体库中的实体描述,全部转换为向量,例如:
“美国一家高科技公司,经典的产品有Iphone手机”转换为向量
V
1
V_1
V1
“水果的一种,一般产自于…”转换为向量
V
2
V_2
V2
然后将“今天苹果发布了新的手机”中“苹果”的上下文“今天,发布了新的手机”转换为向量
V
t
V_t
Vt
我们只要将
V
t
V_t
Vt分别与
V
1
V_1
V1和
V
2
V_2
V2计算相似度,然后对比sim(
V
t
V_t
Vt,
V
1
V_1
V1)和sim(
V
t
V_t
Vt,
V
2
V_2
V2)
相似度高的,我们则将其看作“苹果”的真实语义。
注意:如果Text过长可以取实体的前10个和后10个组成向量,如果标准库过长也可以如此处理
实体统一
定义:
给定俩个实体,判断是不是同一个实体?
实际上是一个0-1的问题,二分类问题
简单方法
方法一:基于相似度的方法,给定俩个实体(如果实体较长),俩个实体都是字符串,计算相似度(使用编辑距离),利用阈值判断是否是同一个实体。
方法二:基于规则的方法,stemming的方法提取原型(提前维护好一个实体描述库)
公司 | 原型 |
---|---|
百度科技有限公司 | 百度 |
百度有限公司 | 百度 |
百度广州分公司 | 百度 |
stemming规则 | 动作 |
---|---|
有限公司 | 删除 |
分公司 | 删除 |
北京 | 删除 |
广州 | 删除 |
方法三:基于知识图谱的实体统一
提取实体的自身特征信息和一度关系等,concat成向量进行相似度计算。
原文链接:https://blog.youkuaiyun.com/lt326030434/article/details/88058739