【数据管理视角】数据分类

从数据管理视角进行数据分类,可以将数据划分为主数据、交易数据(事务数据)、统计分析数据(指标)、参考数据和元数据。
在这里插入图片描述
主数据(Master Data):关于业务实体的数据,如:人、地点、客户、产品等。主数据关注的是“人”和“物”,主数据管理(MDM)是数据治理领域一个专门的话题,其主要目的是对关键业务实体(如员工、客户、产品、供应商等)建立统一视图,让客观世界里本是同一个人或物,在数据世界里也能做到唯一识别,而不是在不同系统、不同业务中成为不同的人或物。

举个例子,比如你在ERP系统中能够看到一些交易数据,比如订单产生的日期和编号、地点、金额、商品、用户、供货商、店铺之类的信息。那么这些信息中的产品、供货商、用户、地点这些都是主数据。对于CRM客户管理来说,用户就是主数据;对于银行来说,卡bin码、开户行、账号、理财产品等都是主数据;对于生产企业,BOM表是主数据;对于二手房平台,房源信息是主数据。贝壳的楼盘字典就是典型的主数据,他们从2008年开始建设,持续了12年,投入了5、6亿。
在这里插入图片描述
所以我们总结一下,主数据一共有以下种类:

  • 与人相关的:用户、客户、公民、病人、供应商、学生等;
  • 与物相关的:实体产品、虚拟产品(理财产品)、生产资料(BOM表)等;
  • 与场相关的:地址库、楼盘字典、POI信息等;
  • 与规则相关的:财务的账套等。

主数据是在整个价值链上被重复、共享应用于多个业务流程的、跨越各个业务部门和系统的、 高价值的基础数据,是各业务应用和各系统之间进行数据交互的基础。

交易数据/事务数据(Transactional Data):描述业务运营过程中的内外事件或交易记录。如:销售订单、采购订单等。交易数据关注的是“事”,由于交易数据是BI分析的基础,因此往往在数据质量管理中重点关注。

统计分析数据/指标(Analytical Data):对业务进行统计分析的指标,是组织在经营分析过程中衡量某一个目标或事物的数据,一般由指标名、时间和数值等组成。如:新增用户数、销售额等。按照业务规则确定的计算逻辑,基于一个或多个数据元素值加工得到的新数据元素。目前BI系统建设的主要作用就是做各种指标和报表的计算和展示。

参考数据(Reference Data):用于将其他数据进行分类或目录整编的数据,规定参考数值是几个允许值之一。如:客户等级。参考数据是更细粒度的数据,是对“人”“事”“物”的某些属性进行规范性描述的,对参考数据的管理一般会与主数据管理同时进行,或与BI数据质量管理同时进行,因为指标维度和维值直接影响到BI数据质量。
在这里插入图片描述
参考数据可用于描述其他数据,上图列举了一个服务单状态代码示例,通过上面的参考数据,可以明确知道 代码值1-7表示什么状态,这些状态又代表什么业务含义。

元数据(Meta Data):描述数据的数据,主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能,帮助理解、获取、使用数据,一般分为技术元数据、业务元数据等。

例如,现在我告诉一个数字:175,你除了对175这个数字有比较确定的量化意义之外,也无法理解175具体代表了什么含义。但是如果是这样描述一下呢?
在这里插入图片描述
这样是不是就很清楚了?175的意思是:2020年统计的全国成年男性平均身高,该值的合理阈值是80-260cm,数据目前存在MySQL中,访问连接是XXXX,由国家统计局的张三在2020年1月1日创建,数据目前是公开的,很安全,质量经过多重确认无误的。

在描述175这个数据,用了哪些描述项呢?单位、指标、统计时间、统计范围、合理阈值、数据库、表、字段、接口、创建人、创建时间、数据权限、质量等级等等。这些都是在描述175这个数据。我们把描述175这个数据的其他数据称之为“元数据”。

当然,为了管理方便,我们同样还能将上述元数据进行归类:
在这里插入图片描述

  • 与业务规则、流程相关的描述性数据,我们称之为业务元数据;
  • 与存储、访问等技术底层的描述性数据,我们称之为技术元数据;
  • 与数据操作相关的描述性数据,我们称之为操作元数据;
  • 与数据管理相关的描述性数据,我们称之为管理元数据

元数据可以解决什么核心问题?如上所述,元数据就是为了准确的描述我们拥有的所有数据。其核心的目的是降低人与数据之间的沟通成本。描述的越准确,我们使用数据的成本就越低。

先引入一个场景:假设有一天,我们需要对某一些业务信息指标做一个报表统计,用于前端的数据展示,这些业务信息可能来自于不同的表,通过不同的ETL过程到目标数据仓库,最后展示在一个报表中,如下图所示:
在这里插入图片描述
假设你在管理报表,有一天你发现有报表数据中 指标3 的数据异常,你需要找出错误的数据并提交流程修正,那么这个错误数据从何而来?一个个核对数据显然不够高效,那你就得知道这个报表的的指标来源,元数据的血缘分析能帮助你分析这个错误数据的上游路径。
查看元数据可以发现,指标3 是由数据集市的 B主题数据 经过ETL过程生成的 ,B主题数据 又是 由 数据仓库中的table1 和 table 4经过ETL过程生成的。
由元数据构建的血缘分析,可以快速定位数据链路,明确ETL细节,缩小数据问题的范围。

五种类型数据之间的关系,如下图所示:
在这里插入图片描述
以上五类数据中,主数据、交易数据(事务数据)和参考数据统称为基础数据,统计分析数据称为指标数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值