简介
在医学数据库中的大多数初始记录不包含任何患者标识符信息。为了分析和检测这些患者记录的异常,需要关于该特定患者的先前病历信息进行匹配。没有这些信息,匹配被检测人的任务将非常具有挑战性。该系统的目的是根据提供的特征将患者ID分配给患者记录。
基于分配ID的特征性质,系统主要在两个阶段中执行任务。
1、硬实体分解(特征的精确匹配)
2、软实体解析(在给定的特征值范围内聚类实体)
本设计采用面向对象的设计模式,自顶向下逐步细化业务功能,融合了先进的AI算法通过特征匹配,聚类,精准的匹配出患者的原始记录并给出ID.
系统流程图
系统输入
模块的输入包括硬聚类和软聚类阶段的特征规范和软聚类的参数。输入同时还包括指定执行的软聚类的参数类型。
输出
系统输出模块的输出为一个包含全量数据的Spark数据框,其中每一条检测者记录都有一个全局唯一的PI_ID。
硬聚类
硬聚类根据详细的硬约束将所有记录进行严格的匹配,然后相应的将记录聚类。
例: 基于硬约束的硬聚类: PI_NAME, PI_FROM, PI_SEX 属性相同我们认为为同一个检测者
原始数据
REC_ID