实体消歧
1. 实体消歧概述
1.1 实体消歧定义
- 命名实体的歧义指的是一个实体指称项可对应到多个真实世界实体。例如Michael Jordan可以表示篮球运动员,也可以表示计算机科学家,或者其他实体。
- 确定一个实体指称项所指向的真实世界实体,这就是命名实体消歧。
1.2 实体消歧分类
- 基于聚类的实体消歧
- 把所有实体指称项按其指向的目标实体进行聚类
- 每一个实体指称项对应到一个单独的类别
- 基于实体链接的实体消歧
- 将实体指称项与目标实体列表中的对应实体进行链接实现消歧
- 将实体指称项与目标实体列表中的对应实体进行链接实现消歧
2. 基于无监督的实体消歧
2.1 基于聚类的实体消歧
-
基本思路
- 同一指称项具有近似的上下文
- 利用聚类算法进行消歧
- 核心问题:选取何种特征对于指称项进行表示
- 词袋模型(Bagga 等人,COLING,1998)
- 语义特征(Pederson等人,CLIP,2005)
- 社会化网络(Bekkerman等人,WWW,2005)
- 维基百科的知识(Han 和 Zhao,CIKM,2009)
- 多元易购语义知识融合(Han 和 Zhao,ACL,2010)
-
词袋模型
- 利用待消歧实体周边的词来构造向量
- 利用向量空间模型来计算两个实体指称项的相似度,进行聚类
-
语义特征
- 利用SVD分解挖掘词的语义信息
- 利用词袋和浅层语义特征,共同表示指称项,利用余弦相似度来计算两个指称项的相似度