新词。旧概念。最终,这一切都是关于数据融合的。
https://medium.com/@mel.merigold?source=post_page---byline--6b22c09a1442--------------------------------https://towardsdatascience.com/?source=post_page---byline--6b22c09a1442-------------------------------- Mel Richey, PhD
·发表于Towards Data Science ·5 分钟阅读·2024 年 6 月 21 日
–
实体解析是一个过程。知识图谱是一个技术产物。二者结合产生了我们在知识表示和推理领域最强大的数据融合工具之一。最近,ERKG(实体解析知识图谱)已经进入数据架构的讨论,尤其是对于那些希望将给定领域的所有数据连接在一个地方进行调查的分析型组织。本文将详细解析实体解析知识图谱(ERKG)、ER、KG 以及它们实现的一些细节。
ER. 实体解析(也称为身份解析、数据匹配或记录链接)是通过计算过程将数据集中的实体去重和/或连接的过程。这可以像是解决数据库中两条记录,一条标为 Tom Riddle,另一条标为 T.M. Riddle 一样简单。或者,它也可以像一个人使用化名(伏地魔)、不同的电话号码和多个 IP 地址进行银行诈骗那样复杂。
KG. 知识图谱是一种知识表示形式,通过实体及其之间的关系以视觉形式展示数据。实体可以是人、公司、概念、物理资产、地理位置等。关系可以是信息交换、沟通、旅行、银行交易、计算交易等。实体和关系存储在图数据库中,预先连接,并以节点和边的形式可视化呈现。它看起来像这样……
作者图片
因此……
ERKG:一个包含多个数据集的知识图谱,其中的实体相互连接并去重。换句话说,没有重复的实体(例如,Tom Riddle 和 T.M. Riddle 的节点已经合并为一个节点)。此外,还发现了在某些可接受的概率阈值内,潜在相关节点之间的连接(例如,Tom Riddle、Lord Voldemort 和 Marvolo Riddle。此时你可能会问,“为什么你会创建一个来自多个数据源的、没有实体解析的知识图谱?”简单的答案是,“你不会。”话虽如此,如何解析实体的方法以及图谱表示技术使得创建 ERKG 成为一项艰巨的任务。
这是我们制作的第一个 ERKG。
图片由作者提供
早在 2016 年,我们将两个数据集导入图数据库:1)美国财政部外国资产控制办公室(OFAC)的国际制裁名单上的个人(蓝色),以及 2)一家匿名公司的客户(粉色)。显然,该公司的目的是通过图谱发现其客户中是否有国际制裁的个人,而无需手动搜索 OFAC 的数据库。尽管这个图谱所代表的 ER 过程可能有些过于复杂,但它的确具有说明性。
图谱中大多数已解析的实体是在同一个数据集内的两个到三个个体之间的关系(蓝到蓝或粉到粉)。这些很可能代表重复记录(例如我们之前提到的 Tom Riddle 与 T.M. Riddle 的问题)。在某些情况下,去重非常严格,比如图像顶部的粉色簇。在这里我们看到一个人被客户数据集中的 5 到 10 条记录表示。因此,至少可以看出,公司的客户数据需要进行去重处理。
有趣的是,在图像顶部我们看到的蓝到粉色的关系。这正是公司所寻找的:跨数据集的实体解析。它的几个客户可能是被国际制裁的个人。
图片由作者提供
这个例子相对简单,可能会导致人们错误地认为构建 ERKG 是一项简单的工作。事实远非如此。特别是当它需要跨多个 TB 数据和多个分析用户进行扩展时。
轻量级的自然语言处理(NLP)算法(如模糊匹配技术)足够简单,容易实现。这些算法可以轻松处理 Tom Riddle 与 T.M. Riddle 的问题。但当需要将两个以上的数据集结合在一起,可能还涉及多种语言和国际字符时,简单的 NLP 处理就变得相当复杂了。
对于更高级的分析问题,如反洗钱或银行欺诈,也需要更先进的 ER 解决方案。模糊匹配不足以识别那些故意隐藏身份、使用多个化名并试图规避制裁或其他法规的犯罪者。为此,ER 过程应包括基于机器学习的方法和更复杂的技术,考虑到姓名之外的附加元数据。这并不全是自然语言处理(NLP)。
关于基于图谱的 ER 与数据集级别的 ER 之间也存在很多争论。对于最高保真度的图谱分析,两者都是必需的。在将数据集导入图谱数据库时,在数据集内和跨越数据集解析实体,1) 可以最小化对图谱的大规模操作,从而降低计算开销,2) 确保图谱在创建之初只包含已解析的实体(无重复),这也为整体图谱架构节省了大量成本。
一旦存在实体解析的知识图谱,数据科学团队可以进一步通过基于图谱的 ER 技术探索更多的 ER。这些技术的附加好处是利用图谱拓扑结构(即图谱本身固有的结构)作为预测跨多个数据集潜在连接的特征。
ERKG 可以成为一个强大且直观的分析工具。它提供了:
-
将多个数据集融合成主图谱数据库
-
针对分析师探索的特定领域知识图谱的可视化表示
-
能够指定一个实时图谱模式,表示数据是如何连接和展示给分析师的
-
数据去重和数据集内外显式连接的可视化表示
-
跨数据集内外的潜在连接(预测链接),并能够控制预测的概率阈值
ERKG 因此成为一个分析画布,通过多个数据集呈现给定领域的生动互联探索。这是一种数据融合解决方案,而且是一个高度符合人类直觉的方案。
1310

被折叠的 条评论
为什么被折叠?



