数据仓库设计

1、应用架构

2、ETL抽取

抽取:通过JDBC接口或Http接口,从数据源抽取数据


转换:依据数据源与CMDB系统资源之间的属性映射,将N系统的资源转换为CMDB的资源。如监控的进程资源的ip属性为监控IP,CMDB的ip属性为管理IP,通过映射表的配置实现属性名称的转换。


清洗:系统对特定字段进行约束,如必填校验、数字类型校验、IP字段校验、枚举校验(如系统等级只 能为一般、重要、核心)、语义校验(如厂商为泰岳、神州泰岳的统一为神州泰岳)


装载:将资源数据存入数据仓库,同时生成必要的多维报表数据。




3、数据源分析

须从 数据源资源类型、资源属性、资源使用场景、资源变更频率取分析

4、数据源采集

须定义 接口、周期、唯一映射、规则、算法 ,或再包含数据规约、存储表结构、数据展示形式

5、数据源脏数据类型

范围有4方面,单个属性、一条记录内、记录之间、数据源之间。


空值:删除空值的记录、自动补全(平均值、最大最小等)、手工补全

不一致:如非法值:手机号10位,违反依赖:浙江南京,违反业务逻辑:出库时间小于入库时间。解决:在分析原因基础上,变换函数、汇总函数、格式化函数去清洗

重复记录:完全重复和疑似重复,解决:挑选关键属性、分配权重


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值