部分内容摘自 【成于微言】的微信公众号文章(来源:帆软数据应用研究院 作者:汪建辉),关于数据治理的思考来自于之前七年多的银行信贷科技从业经验,因为是在乙方,所以接触的银行相对多一些,做如下思考的分享:
前言
股份制改革对我国银行业来说只是一个开始,企业在风险管理、创造价值等方面还有很长的路要走。风险管理要求提供精准的数据模型、创造价值要求充分银行数据资产,这是数据治理的外部推动因素。此外,随着第三次工业革命的到来,银行业也需要进入定制化时代,以更低的成本,生产多样化的金融产品,从而满足不同顾客的不同需求。对数据本身而言,业务发展加快了数据膨胀的速度,也带来了数据不一致等问题,业务部门的频繁增加和剥离同样会对数据治理提出挑战。这些日益复杂的内外因决定了我国银行业对数据治理的超高标准要求,而目前对应的经验能力却稍显薄弱。
数据治理不仅需要完善的保障机制,还需要理解具体的治理内容,比如我们的数据该怎么进行规范,元数据又该怎么来管理,每个过程需要哪些系统或者工具来进行配合呢?这些问题都是数据治理过程中最实际的问题,也是最复杂的问题,今天我们将从数据治理的各个核心领域来解答这些问题。
个人思考分享:
在此部分,文章中出现了一个关于大数据治理的总体架构图:
从图中看到,最多或最明显的字眼应该是数据、自动、自助、智能这些,而从之前接触的银行来看,不管是以前的数仓叫法,还是现在的大数据平台,其上的现有数据,均参差不齐、虚实兼有,且技术有段不统一,实现程度也各有欠缺,从未来银行业务发展的角度来看,先进技术做支撑(必然是低成本的),业务主题及发展趋势做导向,底层+中台+应用构成三维一体,从半人工、到自动化、再到智能化,所有脱离了实际情况,大讲全自助、全自动、智能化的都是假大空,华而不实,未来的产品或服务,均是要帮助银行产生价值(短期或长期),但肯定是显而易见的,并通过不断迭代,进行优化和丰富,且可拆分、可组合,不受限与某一家供应商。
银行数据治理核心领域
每个数据治理的领域都可作为一个独立方向进行研究治理,目前总结的数据治理领域包括但不限于一下内容:数据标准、元数据、数据模型、数据分布、数据存储、数据交换、数据生命周期管理、数据质量、数据安全以及数据共享服务。
同时各领域之间需要有机结合,如数据标准、元数据、数据质量等几个领域相互协同和依赖。通过数据标准的管理,可以提升数据合法性、合规性,进一步提升数据质量,减少数据生产问题;在元数据管理的基础上,可进行数据生命周期管理,有效控制在线数据规模,提高生产数据访问效率,减少系统资源浪费;通过元数据和数据模型管理,将表、文件等数据资源按主题进行分类,可明确当事人、产品、协议等相关数据的主数据源归属、数据分布情况,有效实施数据分布的规划和治理。
数据治理领域是随着银行业务发展而不断变化的,领域之间的关系也需要不断深入挖掘和分布,最终形成一个相互协同与验证的领域网,全方位的提升数据治理成效。
个人思考分享:
元数据很关键,不仅仅针对当前源数据中的单元,还应看到未来源数据的维度和事实;其次,数据模型也讲经历几个阶段:单一维度汇总及简单计算、多维度组合运算、大样本统计算法分析、深度学习、自动化智能(自执行、自适应、自优化)、高级智慧模型,这是不可逆的趋势,但需走好每一步,且要落到实处。
业务专家+先进技术的融合,随着数据的积累,业务的不断优化,仿生学模型也会不断进化,从全人工、半人工到智能化、智慧化,未来会更好的沉淀为基础设施,服务于人类和一切生命。
数据治理核心领域
1.数据模型
数据模型是数据治理中的重要部分,合适、合理、合规的数据模型,能够有效提高数据的合理分布和使用,它包括概念模型、逻辑数据模型和物理数据模型,是数据治理的关键、重点。数据模型包含三个部分,数据结构、数据操作、数据约束。
数据结构。数据模型中的数据结构主要用来描述数据的类型、内容、性质以及数据间的联系等。数据结构是数据模型的基础,数据操作和数据约束都基本是建立在数据结构的之上的。不同的数据结构有不同的操作和约束。
数据操作。数据模型中的数据操作主要用来描述在相应的数据结构上的操作类型和操作方式。
数据约束。数据模型中的数据约束主要用来描述数据结构内数据间的语法、词义联系、他们之间的制约和依存关系,以及数据动态变化的规则,以保证数据的正确、有效和相容。
个人思考分享:
数据模型的发展,在未来的几年,会蓬勃和繁盛,随着大数据、云计算、人工智能等新兴技术的不断成熟,使得原来看起来很困难的事情,逐渐简单:
在个人服务领域,
从消费、分期、信用、现金等贷款业务场景开始,再到理财、投资、财富管理等中间业务场景,从电商、社交、支付再到互联网微博、微信等闭合生态,再到衣食住行用玩等方方面面的开放生态,围绕个人的模型架构已