即使在过去,企业也要面对超出其基础设施和流程处理能力的大量数据,更不用说要从数据中挖掘出对制定有效决策有实际价值的情报了。如今,随着种类、数量日益成倍增加的数据从社交媒体及各种在线渠道汹涌而来,而处理上述数据的迫切性也日益加强,企业面临着和以往同样的问题。
早在 2009年,《大数据资产:聪明的企业怎样致胜于数据治理》一书的作者 Tony Fisher就曾提到,如果基本数据不可靠,大多数企业的大数据计划要么会失败,要么效果会低于预期。造成上述结果的关键原因在于,数据生命周期之中流入了不一致、不准确、不可靠的数据。这些原因可以是多重的:
- 大数据计划中的数据识别并不完整:对要获取什么数据、怎样使用这些数据、它们要满足哪些业务目标以及谁有权拥有这些数据等方面并未明确界定。.
- 数据的采集与转换并没有规定适当的标准、架构、元数据定义、数据所有权、政策以及数据转换规则。
- 数据传输在安全性、业务用户上下文、数据与业务流程的关联等方面并未进行适当的界定。
在数据领域最流行的一个说法是“更好的数据意味着更好的决策”,这句话从来不假,在当今的大数据时代甚至更为真切,但它之所以成立的基本假定也未改变,那就是“基本数据是准确、可靠、值得信赖的,来龙去脉清楚,并且具有一致性。”—试想,如果没有一个可靠的数据治理计划,我们还能这样假定吗?
我们都听过诸如此类的说辞“IT技术融入业务对我们的企业至关重要”、“IT技术促成各种业务功能的实现”。对企业上下进行实际的评估,能实现上述说辞的情况却是屈指可数。对大多数企业而言,IT技术与各种业务目标之间仍存在差距,首席信息官及各高级主管仍在努力设法使 IT技术能配合各种业务目标,从而促进企业战略目标的实现。在对成功企业进行分析后,可以得出一个很明确的结论那就是“有效的数据治理计划”是成功企业的法宝。
那么大数据治理计划的意义及其所包含的内容是什么呢?
数据治理--是指在企业数据生命整个周期(从数据采集到数据使用直至数据存档)制定由业务推动的数据政策、数据所有权、数据监控、数据标准以及指导方针。数据治理的重点在于,要将数据明确作为企业的一种资产看待。数据治理的六大支柱如下面图 1 所示,对于任何企业数据治理计划而言,变更管理都是必不可少的核心部分。
简单的定义—大数据是指以不断以从各种渠道以各种格式涌入的大量数据,仅利用传统的数据处理方法和技术无法处理它们,但其中却蕴含着大量商业价值。
大数据集的分类:
-
非结构化数据 — 文本、视频、音频和图片
-
半结构化数据 — 电子邮件、软件包 / 模块、电子表格、财务报表
-
结构化数据 — 数据仓库( DWH ) /BI 数据、传感器 / 机器数据记录、关系型数据库管理系统( RDBMS )数据
下图描绘了数据治理怎样在架起 IT技术与业务之间的桥梁方面发挥作用。
任何大数据计划都应该考虑到数据的各种特点:数量(大)、种类(多)、模糊性(高)、产生频率(高)以及质量(不可靠),数据架构团队(数据科学家、数据分析师)要完全识别、定义并分析这些数据,就要征询企业各方利益相关方(数据及业务流程拥有者)的意见。这样做的结果就能让包括企业战略拥有者、业务流程/数据拥有者以及 IT 架构专家在内的数据治理部门在上述计划实施的初期就能弥补差距和不足,从而确保大数据集的规划与业务流程一同进退。