4.2数据规范
4.2.1 表字段命名规范
表名以代表表内内容的一个或多个名词组成,以下划线分隔。
表命名大体包括三部分:XXX_YYY_ZZZ。XXX代表位置域,YYY代表主题域,ZZZ代表业务域。例如:DW整合层用户角色:dim_uc_role。
表名长度建议50字符以内,通常不超过5段。
根据各层功能定位不同,每一层仓库表命名略有不同,下面根据仓库分层的划分,对表命名做如下规范。
4.2.2 字段命名规范
字段命名规范有如下几点规范要求:
1)数据库表字段应该是有意义而且易于理解的,最好是能够表达字段含义的英文字母;
2)系统中属于是业务内的编号字段,代表一定业务信息,建议字段命名为id , 如年级编号 grade_id;
3)字段名避免采用过于简单的名称:例如,用户表中,用户名的字段名为user_name要比name更好。
4)布尔型的字段,以一些助动词开头,更加直接生动:如,用户是否留言has_message,用户是否通过检查is_checked等;系统所有is_开头的字段,都是1表示是,0表示否;
由于hive字段不区分大小写,所以摒弃驼峰命名法则,统一采用 _ 进行连接编码。
4.3数据标准管理
4.3.1 目标及原则
数据标准是企业级大数据平台数据治理的基础性工作,是数据治理建设中的首要环节。
数据标准管理的总体目标:通过统一的数据标准制定和发布,结合制度约束、系统控制等手段,实现企业级省大数据平台数据的完整性、有效性、一致性、规范性、开放性和共享性管理,提高企业级省大数据平台数据治理水平。
数据标准制定的原则:
1)开放性:标准制定人人参与。
2)共享性:数据标准化信息在大数据生态圈共享使用。
3)完整性:涵盖客户、产品、服务、帐务、资源、网络等全部重要数据信息。
4)有效性:信息准确度高、理解上不存在歧义。
5)一致性:做到“五统一”,定义统一、口径统一、名称统一、来源统一、参照统一。
6)规范性:制度规范、流程控制、系统管理等。
4.3.2数据标准分类和制定
4.3.2.1数据标准分类
数据标准体系可分为基础类数据标准和指标类数据标准。
4.3.2.2数据标准制定
4.3.2.2.1基础类数据标准制定
基础类数据标准是通过各种业务处理产生或各类渠道采集的基础性数据,在全国范围内必须是唯一定义的,如“用户品牌”、“归属地市”。基础类数据标准分为行业参考模型实体标准和公共代码标准。
行业参考模型实体标准指按照行业需求和企业数据逻辑模型实体规范要求,继承以往数据逻辑模型实体规范,将各域的逻辑模型实体定义抽象为模型实体标准要求。行业参考模型实体数据标准体系定义内容如下表所示。
具体行业参考模型实体数据标准体系定义内容示例参见《附录二:数据标准体系定义示例》。
公共代码标准,指对于一些共享程度较高、内容相对比较稳定的编码,通常可以组织力量一次性地编制出来,其中有一些需要引用外部公共标准机构的标准,比如:世界各国和地区名称代码等。公共代码标准体系定义内容如下表所示。
4.3.2.2.2指标类数据标准制定
指标类数据标准是数据基础上按照一定业务规则加工汇总的数据,如KPI指标数据。指标类数据又可分为基础指标和计算指标。基础指标一般不含维度信息,且具有特定业务和经济含义。计算指标通常由两个以上基础指标计算出。指标类数据标准体系定义内容如下表所示。
4.3.3数据标准管理流程
4.3.3.1标准生成流程
标准生成流程中,首先收集国标、行标,如果有国标或行标则直接复用,如果没有则和业务方一起根据实际情况制定企业标准,大体流程如下:
流程执行频次:每半年。
技术委员会:发起流程,核准发布及标准发布。
项目侧:盘点并提供周期内新增模型。
大数据专家组:收集整理,组织业务专家提炼公共模型,并负责标准更新,发起标准发布申请。
业务专家组:参与提炼公共模型,模型评审。
4.3.3.2标准维护流程
标准制定后还需定期更新,根据业务需要可以按月或季度更新一次,维护更新流程如下:
流程执行频次:按需评审,季度发布。
项目侧:标准使用者,参与标准维护过程中的需求提出和问题反馈。
大数据专家组:标准管理者,统筹医疗BU统一数据模型维护和更新全流程,包含需求收集和识别、标准更新、资源协调、标准审核和发布等。
业务专家组:标准维护参与者,参与标准评审。
技术委员会:决策核准发布,及标准发布。
4.3.4标准执行
公司和各部门、分公司统一按照所制定的数据标准实施数据标准管理,数据标准的执行流程如下图所示。
数据标准执行的流程步骤如下:
1、数据标准制定发布后,将数据标准录入到数据标准管理模块。
2、数据标准管理执行者按照发布的数据标准,制定和发布数据标准接口。
3、数据标准管理模块将标准要求提供给数据质量管理根据已录入系统的数据标准形成稽查规则,对数据标准管理执行者制定和发布的数据标准接口中的内容进行相关的标准稽核监控。
4、将标准稽核结果发送给数据标准管理模块,并反馈给数据标准管理决策者和数据标准管理执行者。
4.3.5标准监管
数据标准监控实现对数据标准执行过程的监控,包括对数据标准的执行、效果、问题进行监控管理,为后期数据标准维护管理提供依据。
数据标准的监控通过数据标准管理和元数据管理、数据质量管理协同实现落地,监控流程下图所示:
数据标准管理监控流程如下:
1.数据管理者录入数据标准和元数据信息。
2.根据数据标准制定数据标准接口。
3.根据数据标准生成的稽核规则,进行前向稽核,稽核正常进行下一流程,稽核非正常返回错误文件记录给数据管理者做数据标准的更新。
4.数据提供者将数据提交到企业级大数据平台,并且完成对元数据的采集。
对数据提供者数据进行后向稽核,稽核正常则数据可提供数据消费者正常使用,稽核非正常返回错误信息记录给数据提供者做数据修订。