基于熵的大数据高效清理方法
1. HDB 架构概述
HDB(Hierarchical Database)架构是一种树状图结构,数据以记录形式存储,记录是字段的集合。图中的每个节点代表一个记录簇,节点按层级组织,通过图的弧依次相连。顶层(第 0 层,根节点)包含数据库中的所有初始记录,根节点连接到第一层节点,代表这些记录的簇,每个第一层节点又连接到第二层的子簇,依此类推。我们从根节点开始自上而下遍历图来研究 HDB。
HDB 模型常用于信息收集主要关注具体系统层次结构的情况,例如复杂设备的组件列表或公司组织结构图。以下是一些具体示例:
- 药品材料数据库 :根节点包含医疗服务提供商(配送中心)持有的所有药品材料记录。第一层根据提供商服务的大地理区域对记录进行聚类,第二层代表子区域,第三层根据每个子区域对应的各个诊所对记录进行聚类。
- 汽车零部件数据库 :根节点包含汽车制造商生产的所有汽车零部件信息。第一层包含对应大型、可直接安装子系统的零部件簇,如车身总成、座椅总成、发动机模块等。第二层代表第一层节点所代表的较大部件的子部件,依此类推。
- 患者数据数据库 :根节点描绘了与患者对应的所有可用记录。第一层节点描绘了患者子组(如特定年龄组的患者)的记录簇。对于每个子组,第二层节点按不同年龄类别的患者性别划分信息。第三层为每个患者记录簇包含对应这些患者看医生次数的子记录簇等。
下面是 HDB 架构的简单 mermaid 流程图:
graph TD;
A[
超级会员免费看
订阅专栏 解锁全文
1209

被折叠的 条评论
为什么被折叠?



