近期政府项目正在探讨如何给委办局开放大数据平台的能力,包括存储计算、数据治理、数据挖掘、数据分析等能力,要求平台以租户的形式支撑各项能力开放。其中,数据挖掘、数据分析等能力主要是以接口API、应用使用等方式提供能力,数据治理涉及到了构建模型、数据清洗与融合等多个步骤流程,周末进行了一些思考,总结如下图:
在上图中,多租户模式下的数据治理需要在以下几个方面进行加强:
- 公共数据区与租户数据区。将统一汇聚接入的数据放入公共数据区,可以支撑所有授权用户的使用,对于每个委办局租户,建立租户数据区,委办局可以自己接入、清洗与融合特定的数据,并基于平台的能力进行分析与展现;
- 数据分库模式。数据分库是数据治理中流程与方法的体现,为了更加有效的支撑委办局数据治理需求,将数据分库内置到每个租户数据区的结构中,从而可以引导委办局更加有效的完成数据清洗与融合,提高数据质量。
- 数据共享。大数据平台允许租户使用公共数据区数据进行二次加工处理,这样就要求建立一套公共数据区与租户数据区数据的共享机制,包括数据授权、访问机制等,上图中引入了数据服务总线的概念,主要是为了将这种共享访问机制抽象化。服务总线屏蔽了底层的数据平台差异,封装了安全控制、访问接口等功能。
- 数据治理功能。可以提供的数据治理功能包括数据质量、元数据管理、数据清洗、数据融合、作业调度等常用功能。
- 数据导出。为了更好地支撑委办局开发数据应用,大数据平台允许其将治理后的数据,导出到本地进行分析挖掘,开发相关的数据应用。导出的方法包括导出为文件和数据接口两种形式。