知识图谱的知识丰富化:技术与实践
知识丰富化旨在提升知识图谱的完整性。通常,知识丰富化过程包含以下步骤:
1. 识别额外的数据和知识源
2. 将所选源的语法转换为知识图谱使用的语法
3. 使知识图谱的TBox与外部源的模式对齐
4. 将外部ABox集成到知识图谱中,包括实体解析(查找并链接重复实例)和数据融合(解决实体解析后的属性值冲突)
1. 额外数据和知识源的识别
知识丰富化通常始于新数据源的识别。这些数据源可以是现有的知识图谱,也可以是其他非结构化、半结构化或结构化的源,如文本、图像、CSV、XML和JSON文档、关系数据库等。
自动化查找新的知识源并非易事。开放源可以进行半自动化发现,可使用发现查询来确定它们是否满足我们的领域需求。不过,机器可读的源描述很少可用。许多有用的源是专有的,需要各方之间达成法律或商业协议,这使得自动化发现和访问变得更具挑战性。
不同领域识别源的策略可能有所不同。例如,在旅游领域,常见的产品和服务聚合器可从单点提供大量数据,但它们通常是专有的,访问其数据可能具有挑战性。个别服务提供商也可使用,但可能存在可扩展性问题。此外,像Wikidata和DBpedia这样的开放源包含跨领域知识,可通过发现查询进行部分自动化发现和访问。
| 数据源类型 | 特点 | 发现与访问难度 |
|---|---|---|
| 开放源 | 可半自动化发现,需发现查询确定是否满足需求 |
超级会员免费看
订阅专栏 解锁全文
729

被折叠的 条评论
为什么被折叠?



