
数据治理
文章平均质量分 50
鸿浪@大数据
在政府大数据中探索
展开
-
数据平台与数据中台
最近数据中台被越来越多地提到,很多的技术方案也是以数据中台进行对外宣讲,包括我自己,也在经常对外讲数据中台的方案,那么,数据中台与数据平台的区别是什么呢?这个问题不时会被问到,归纳起来,我个人认为有以下几点:数据中台更加强调对应用和业务的支撑。数据中台需要将加工处理后的数据封装为对业务人员更加友好的中间形态,而不仅仅是传统的报表、看板等,比如,标签、画像、推荐、指标等,基于这些“数据组件”,前...原创 2020-03-21 14:49:21 · 1900 阅读 · 0 评论 -
政府大数据平台标准规范-数据接入
搞政府大数据平台的,标准规范是一个绕不过去的内容,而且政府项目对标准规范貌似都特别看重,这是与做企业项目很大的不同。政府大数据平台的标准规范可以从以下几个方面制订:数据采集,包括结构化、非结构化数据,以及实时、批量数据的接入汇聚;数据治理,包括数据质量、数据清洗融合、数据模型设计等;数据服务,主要是对应用、委办局的数据支撑,包括数据文件、API接口等;数据安全,此处主要是通过数据脱敏、数...原创 2020-03-15 14:53:43 · 12486 阅读 · 3 评论 -
政府大数据平台的部门库建设思路
最近项目中正在讨论部门库的定义与建设思路。个人认为部门库是部门自己产生的数据,再加与其它部门数据进行融合加工后生成的数据。从建设路径上来看,可以从以下几个方面考虑:...原创 2020-01-04 17:12:06 · 2487 阅读 · 0 评论 -
政府大数据平台需要有一个强大的数据接入工具
建设政府大数据平台,一个深刻体会是数据汇聚的难度,为了摸清委办局的数据家底,先期会花费大量的精力梳理资源目录,依据三定职责,梳理职责目录、系统目录和库表目录。从资源目录中就会发现,除了各类数据库之外,还有很多的数据是以文件形式存在,包括公文、公告、台账等,若不能将这些数据有效利用,则数据价值就会大打折扣。因此,大数据平台要有一个灵活可配、功能丰富的数据接入系统,既能将各类库表数据采集入库,也能将种...原创 2019-12-19 13:57:36 · 1950 阅读 · 0 评论 -
基于区块链的政务大数据平台
目前正在思考区块链技术在政务大数据的应用和落地场景,联系到区块链的主要特性,也就是:去中心化(Decentralized):由于使用分布式核算和存储,不存在中心化的硬件或管理机构,任意节点的权利和义务都是均等的,系统中的数据块由整个系统中具有维护功能的节点来共同维护。去信任(Trustless):系统中所有节点之间无需信任也可以进行交易,因为数据库和整个系统的运作是公开透明的,在系统的规则和...原创 2019-12-17 14:46:46 · 5241 阅读 · 0 评论 -
政府大数据的资源库建设不能等米下锅
做政府大数据项目,基础库的建设是必备的项目,只是基础库的内容一直在变化,各家的理解也不一样,一般会有人口库、法人库、电子证照库、空间地理资源库等。以人口库为例,是按照一数一源原则,将各委办局的人口数据进行融合,为各类应用提供共享共用。不过在资源库建设的过程中,由于各地委办局信息系统既有自建系统,也有垂管系统(市里、省里、部委等),能汇聚的数据情况就有很大差别了。而数据协调的工作往往需要行政推动,不...原创 2019-12-03 16:18:05 · 1347 阅读 · 3 评论 -
政府大数据之数据治理
目前项目正处于接入委办局数据并进行治理的阶段。由于大数据能力支撑平台的特点,其主要是对外部其它应用系统提供能力支撑,包括分析能力、可视化能力、数据服务能力等,而数据治理则主要是将接入的数据进行清洗、转换、融合等处理,正在考虑如何将数据治理的成果为项目甲方介绍清楚,将项目进度以可量化的指标表述出来。以下是我想到的一些点:数据模型。数据建模是数据治理的重要工作,也是数据仓库项目能取得成功的关键。但...原创 2019-11-19 17:15:17 · 2428 阅读 · 0 评论 -
政府大数据的资源库建设
政府大数据目前的建设都是围绕基础库和主题库展开,其中,基础库包括人口、法人、电子证照、空间地理,主题库有社会信用、城市运行等。但资源库建设的方法、标准、内容等却没有统一的认识,而且多数都是以ETL脚本、数据模型等形式体现,可以写成PPT,但通过软件体现出来的成果不多,对于数据平台之外的各方,基本都是一个黑盒子。这两天我对这个问题进行了一个初步的梳理,感觉以资源目录为切入点,用资源目录为抓手可以将资...原创 2019-11-14 10:19:52 · 7653 阅读 · 0 评论 -
政府大数据之数据需求管理
做政府大数据平台,委办局数据接入与对外数据提供,这两件事正常来讲应该是先接入,然后再供数,但现实情况往往是互相影响,尤其是在大数据平台建设之初,各类应用倒逼着大数据平台去和委办局协调数据。大数据平台往往面对着几十家委办局、成百上个数据目录,不论是从现有目录中挑选应用需要的数据,还是从数据需求中筛选出需要接入的数据,都离不开对多个excel的反复加工处理,数据接入成了一个烦燥、乏味的活。应该开发一个...原创 2019-11-13 15:31:22 · 2392 阅读 · 0 评论 -
政府大数据之资源目录管理
最近客户正在按照三定职责梳理职责目录和数据,需要用到大数据平台的资源目录系统,经过几次交流,逐步梳理出一些改进需求。根据我的理解,梳理出资源目录系统的功能架构,将一些需要重点改进的点记录下来。根据相关标准定义,资源目录可以分为部门资源目录、基础资源目录和主题资源目录,从实践中来看,梳理部门的资源目录是大数据平台的切入点,这也是由政府大数据项目的现状和特点所决定的。现阶段政府大数据基本处于信息化...原创 2019-11-12 15:17:13 · 15591 阅读 · 0 评论 -
一站式数据开发工具构思
正在思考在数据项目中,提供一个什么样的开发工具,可以提高数据治理效率,降低ETL门槛,在政府项目中可以让更多的委办局利用云平台完成数据治理的工作。下图是初步构建的一个功能,不同于kettle等ETL工具,这个工具希望能将尽可能多的业务规范、业务概念整合为开发组件,将成熟的范式直接应用到数据清洗与融合的过程中,让数据流程看起来更接近业务视角。另外,考虑到设计的数据流程直接转换为ETL脚本,可能会存在...原创 2019-09-19 16:22:24 · 526 阅读 · 0 评论 -
批量数据接入系统设计
最近在考虑批量数据接入系统的设计,也就是从外部的数据库、文件等数据源,采集数据后存储到目标的数据库或分布式存储系统中。接入后的数据再经过清洗、融合等处理后,形成基础库和主题库。采集数据源和目标数据源数据源可以分为来源数据和目标库,主要是配置数据的连接参数,也就是数据库的连接参数,文件的获取位置、格式等。该功能重点是尽可能多地适配主流数据库、文件格式等。采集任务采集任务配置了将数据从源数...原创 2019-09-16 14:14:25 · 1053 阅读 · 0 评论 -
投标演示项目准备
这几天投标国家污染源普查项目,要求有一个demo演示系统功能,同时也提供了普查的样例数据,按照演示的要求,准备了一个演示场景,如下:按照要求,演示要涵盖4个方面的内容,由于时间仓促,只导入了工业污染源的4张表的数据进行演示,同时由于样例数据很少,为了演示效果,按照数据格式也造了一些模拟数据,这4个方面的功能分别如下:数据清洗与入库。将工业源数据导入hive数据库,通过清洗工具,为工业企业基...原创 2019-09-04 10:14:56 · 1711 阅读 · 0 评论 -
多租户下的数据治理
近期政府项目正在探讨如何给委办局开放大数据平台的能力,包括存储计算、数据治理、数据挖掘、数据分析等能力,要求平台以租户的形式支撑各项能力开放。其中,数据挖掘、数据分析等能力主要是以接口API、应用使用等方式提供能力,数据治理涉及到了构建模型、数据清洗与融合等多个步骤流程,周末进行了一些思考,总结如下图:在上图中,多租户模式下的数据治理需要在以下几个方面进行加强:公共数据区与租户数据区。将统...原创 2019-08-12 10:05:15 · 979 阅读 · 0 评论 -
【数据治理】自定义数据治理规则
数据治理包括数据质量探查、数据清洗、数据脱敏等,这几个动作实际上都是针对表数据的判断或转换,为了增加系统的灵活性和扩展性,可以将其抽象为规则,通过Java Script等形式允许用户自定义扩展,概念图如下:其中,数据质量探查规则:判断字段值是否符合相关规则,包括唯一性、完整性、准确性、一致性、时效性等;数据清洗规则:对数据进行清洗转换处理,它是数据质量探查和数据处理的组合规则,先用探查规...原创 2019-07-22 16:02:26 · 2491 阅读 · 0 评论 -
数据产品交付的核心优势
今天去参加项目的初设评审会议,回来的路上和同事闲聊,吐槽公司研发的产品太弱,交付产品总感觉七拼八凑,哪个功能都不能深究。但反过来想,公司这几年也做了不少数据项目,既有银行,也有政府,而且也获得了腾讯的投资,说明外界对公司的实力还是认可的。那么,公司的实力到底体现在哪呢?也许同事的见解不无道理:公司的产品体系虽然不强,但具备了完整交付项目的能力,这是公司的核心价值,也是腾讯投资的原因。就好比盖房...原创 2019-07-25 14:57:06 · 1614 阅读 · 1 评论 -
【产品规划】实现一个智能化的数据清洗工具(系列二)
数据清洗是数据分析过程中最基础的工作,也是最累、最繁琐的部分,不像数据挖掘、数据分析看起来那么光鲜,做起来枯燥乏味。当然,这也与数据清洗工具的自动化程度不高,需要人肉去完成大量的ETL开发工作有极大的关系。为了改善这种局面,可以让ETL工程师减少重复性的编码工作,将更多的精力投入到数据分析当中,更加有效地发挥人的聪明才智,提升数据价值。下面是加入了“智能化”元素的数据清洗流程图。构建数据质量...原创 2019-04-25 16:47:11 · 1339 阅读 · 0 评论 -
【产品规划】数据治理产品的智能化设想(系列一)
上周参与了大数据筑基工程对现有数据平台的对标分析工作,各厂家要分析出自己平台的现状、差距以及要未来要改进的点,从而为筑基工程制定出接下来的行动计划。通过分析,发现公司产品在数据清洗、数据质量以及数据分析方面的覆盖度还是挺好,但在其它诸如统一安全、统一管理、数据共享等领域,则显得有点单薄,当然这也与总体方案对这方面的规划本身很超前也有关系。抛开其它方面不谈,产品在数据质量、数据清洗这两方面的满足程...原创 2019-04-22 13:36:15 · 2253 阅读 · 0 评论 -
数据质量分析之校验规则模板
现在的校验规则模板,把校验规则的种类、含义以及要填写的内容整理成了excel通用模板,但在实际执行过程中,每个人对校验规则的用途和校验方法存在不同的理解,而对于如何写出相应的校验SQL,有不同程度的困难。现有的校验规则说明如下图:要填写的校验规则模板如下图:从上面的图中可以感受到,如果表的字段较多,除了逐个判断每个字段适用的校验规则,还要写出相应的SQL语句,再将结果粘贴回来,大量的工作...原创 2019-03-22 15:59:46 · 11129 阅读 · 0 评论 -
数据质量分析之信息调研
这两周在项目组参与了共计70多张表的信息调研,同时负责将调研数据进行整理,形成分析报告并与局方进行交流。这些表是10多个政府部门共享的数据,调研中涉及到如下一些方面:表、字段调研,也就是整理数据字典,以固定的格式整理到excel中,后续可以做为元数据的采集基础;数据质量分析,包括完整性、唯一性、时效性、准确性和一致性5个方面,由于时间仓促,主要从表数据记录数、字段的非空约束、唯一性、业务数据...原创 2019-03-20 15:38:25 · 1100 阅读 · 0 评论 -
数据仓库知识随记-数据建模
今天读了一篇Teradata关于数据模型的白皮书,《The Teradata Communications Industry Logical Data Model》,把自己对数据建模的理解再次进行了梳理。虽然这之前一直在学习SID模型,也在按照SID中的规范指导实际工作,但一直没有透彻地理解建模的本质和方法,仍然停留在”可做、不可讲“的程度。 在白皮书中,对数据模型有一个简单的定义: A...原创 2018-08-14 14:28:14 · 475 阅读 · 0 评论 -
数据仓库知识随记-数据湖
今天去Teradata的网站学习了它的产品体系,大概弄明白了前几天所听到的“数据湖”的概念,以及它所应用的场景。 Data lakes and data warehouses are both design patterns, but they are actually polar opposites. Data warehouses are an approach based on st...原创 2018-08-13 15:50:10 · 1536 阅读 · 0 评论 -
数据仓库知识随记
昨天和罗强沟通工作的事情,讲到了一些数据仓库架构的知识点,随手记录如下:贴源层,即ODS层,与源系统数据结构保持一致,不保留全部数据,有时效性数据湖,据称是保存全生命周期的数据,经过关联处理的数据。百度了一下,数据湖用于保存所有的数据,在湖之上可以建设多个数据仓库。具体的用途待求证。数据建模,面向领域的数据建模,据称很多都是有多年经验的人,待求证。...原创 2018-08-09 16:21:07 · 903 阅读 · 0 评论 -
【产品规划】数据质量智能探查
这两天项目正在接入新的数据,包括户籍人口数据、学校数量、医院数量等,上午简单浏览了每个表的结构及数据内容,发现有几个数据与网上公开报道存在冲突,应该是问题数据,比如,北京市出租车公开报道是6.6万辆,但接入表数据显示有20多万辆出租车。其它几个问题也是类似的,与网上公布的数值差异较大。参与了近三个月的政府大数据项目,有几个体会:一是数据汇聚难,汇聚上来的数据质量差。对接上来的各委办局的数据,以...原创 2019-05-06 16:28:30 · 947 阅读 · 0 评论 -
数据质量工具真的无用吗?
昨天公司几个同事讨论项目中遇到的问题,对于如何应对客户提出的数据清洗智能化的需求,其中一个很资深的同事提到,对于大部分项目,数据质量和数据清洗最终都会成为咨询项目,“工具在其中起到的作用连20%都不到”。他认为,对于技术类的诸如非空、唯一性等质量问题,若能推动业务系统解决,则没有检查的必要,对于解决不了的,则检查也没有意义;对于业务类的检查,则工具也提前定义不出规则,而且规则也不会很多。对于这个同...原创 2019-05-09 10:40:17 · 1398 阅读 · 0 评论 -
【数据治理】政府项目中的数据治理流程
今天与政府一个部门开会讨论数据治理的需求及问题,感觉到他们对于系统功能的期望比较高,认为通过一些配置就能完成数据质量检查以及数据清洗等工作,从而提出了很多功能需求。但这一方面超出了系统的能力,而且也与实际的实施过程不符。实际过程中,大量的数据质量分析及清洗工作都是人工完成的,系统一般是固化重要的检查规则、问题工单流转、ETL任务管理等方面起作用。为了将这个问题解释清楚,帮助客户理清思路,画了如下的...原创 2019-05-16 15:55:32 · 8668 阅读 · 3 评论 -
【数据治理】数据质量探查
结合这段时间做数据质量分析的过程,构思了数据质量探查工具的实现思路(下图)。简单来说,这个工具应该是基于对表数据的分析结果,归纳并定义出质量检查规则,这两个过程应该是反复迭代进行。其中,数据探查部分是要实现一个对表数据进行探索式分析的功能,将与质量检查相关的内容内置为分析项,由用户根据字段元数据进行选择分析项目,最后根据分析数据确定是否要纳入质量检查范畴,并设计检查规则;质量规则部分允许用户...原创 2019-05-28 15:42:54 · 4285 阅读 · 1 评论 -
【数据治理】数据清洗原型
构思了一个数据清洗的功能。对于数据清洗的关键是通过数据探查,制订出具体的清洗目标要求。为了简化数据清洗的复杂度,可以将清洗要求归纳为业务人员容易理解的约束,比如,非空、不含空格、唯一等这类简单的规则,也包括一些业务数据的约束,比如,身份证规则等。一、数据清洗主页面:通过各种条件可以找到要清洗的目标表,查看其每个字段的清洗要求。二、增加清洗目标为一个或多个字段添加清洗要求,比如,不能为空、...原创 2019-06-16 17:43:44 · 3513 阅读 · 0 评论 -
【产品规划】基于元数据生成质量检查规则(系列三)
上一篇文章中,阐述了实现一个智能化数据清洗工具的思路,其中最关键的是自动构建数据质量检查规则。自动生成数据质量检查规则的基本思路如下:构建质量检查规则模板库。根据项目过往经验,分行业、分主题构建数据质量检查规则模板库,比如,创建日期模板库就可以包括日期格式检查、非空约束两个规则;构建元数据的同义词库。利用词典法、机器学习法或人工方法,构建元数据的同义词库,比如,创建、成立、设立等是同义词,后...原创 2019-04-26 16:29:28 · 1490 阅读 · 0 评论