实体解析:原理、方法与应用
1. 实体解析的定义与重要性
实体解析的目标是发现潜在的唯一实体集合,并将每个引用映射到其对应的实体。解决实体歧义对于消除数据冗余和进行准确的实体级分析是必要的。这是一个在许多不同应用中都会出现的常见问题,在计算机科学的不同分支中都有研究。
实体解析的同义词包括:共指解析、去重、重复检测、身份不确定性、合并清理、对象合并、记录链接、引用调和。
实体解析涉及两个子问题:
- 识别具有不同属性但指向同一实体的引用。
- 通过将具有相同属性的引用分配给不同实体来消除歧义。
2. 动机与背景
实体解析在许多计算机科学领域以不同的形式出现,例如:
- 计算机视觉 :需要确定两个不同图像中的区域是否指的是同一个底层对象(对应问题)。
- 自然语言处理 :确定哪些名词短语指的是同一个底层实体(共指解析)。
- 数据库 :在合并两个数据库或清理数据库时,确定两个元组记录是否指的是同一个现实世界对象(去重和数据集成)。
实体引用出现歧义的原因有很多,常见的包括:
- 数据录入错误 :如排版错误。
- 多种表示方式 :如缩写。
- 不同数据库的不同键 :例如一个人员数据库可能使用社会安全号码,而另一个使用姓名和地址。
传统的实体解析方法侧重于匹配不同引用的属性来解决实体问题,但许多数据源
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



