1 数据导论
数据的定义
数据是指一组定性或定量变量的值。“数据可以被测量、收集、报告和分析,然后可以使用图像、图形和其他分析工具进行可视化。一般意义上,数据指的是现有的信息或知识,并以一种适合使用或处理的方式进行表示或编码。”-维基百科
数据的类型
结构化数据、半结构化数据、非结构化数据。
的深入分析,同时结合事务数据,为企业提供积极的建议,经过必要的调研之后,这些建议可以被企业采购。
事务数据和分析数据都利用了主数据。分析数据也依赖于事务数据,并根据不同客户的需求进行有意义的分析.
企业数据管理(EDM)
“组织具有能够精确定义数据、轻松集成数据和同时为内部应用和外部通信检索数据的能力。”—维基百科。
“EDM强调数据的精确性、粒度和含义,关注数据内容如何整合到业务应用程序中,以及数据如何从一个业务流程转移到另一个业务流程。”----维基百科。
EDM是定义了企业数据如何存储、存储的位置 以及使用哪些技术来存储和检索这类数据的一整套策略。此类数据价值巨大,必须考虑安全控制,并且以明确可控的方式进行掌握和管理。EDM还定义了数据如何与内外部的应用程序进行通信。此外还需要明确数据交换和共享的相关政策和流程。
大数据概念
大数据(Big data),又称为巨量资料,指的是在传统数据处理应用软件不足以处理的大或复杂的数据集的术语。
- 多样性Variety:丰富的数据类型和海量的数据源。结构化、半结构化、非结构化数据。
- 数据量Volume:TB,PB级别。
- 处理速度:生成数据的速度;需要快速实时地分析海量数据,从而推导出有意义的结论。
- 精准性Veracity:准确地分析数据,以获得有意义的结果。由于数据源众多,尤其是非结构化数据的质量往往不太可靠,处理这类数据需要谨慎,基于这类数据的应用必须经过严格的验证。
数据与企业的相关性
Vit Soupal,德国电信大数据部门负责人,在一篇博客中提出了另外3个V。
- 视野vision:每一个拥有大数据的企业都应该由一个清晰的视野,并且改进业务流程来充分利用它。同时,企业的管理层应该充分理解数据湖给企业带来的变化,并在决策时充分考虑到这一点。不是下载安装一套Hadoop集群,导入点数据,引入一些所谓领先的技术就叫做视野。
- 可视化visualization:数据湖预期将存储巨量数据。其中部分数据意义重大,另一部分则不然。需要数据科学家研究这些数据来发现有意义的规律,然后以有效的方式呈现给管理层。要取得大数据方面的成功,对各种格式的数据进行有意义的可视化是必不可少的。
- 价值value: 大数据理应给企业带来价值,比如对业务流程的优化,或者创造新的解决方案(如物联网),甚至是带来商业模式的彻底改变。
只有同时满足业务和技术属性的要求,大数据才能在企业中成功应用。同样的数据湖需要一个明确的视野,不同类型的数据以不同的速度、不同的数据量流入这个湖中。进入数据湖中的数据的质量参差不齐。企业需要借助各种可视化方法来利用数据湖中的数据。这些可视化方法将为企业带来巨大的价值,它们能够帮助企业做出各种有益的决策。技术特性(多样性、处理速度、数据量、精确性)和业务属性(视野、可视化、价值)共同成就了数据湖。
数据质量
高质量的数据是企业不可或缺的重要资产。如果基于低质量的数据来做决策,反而会损害企业的利益和品牌价值,而品牌价值一旦流失就难以恢复了。如果数据有不一致、重复、歧义和不完整等情形,数据的可用性就会降低,基于这些数据进行分析时体验就会不佳,用户就不会考虑再使用该数据了。我们必须认识到数据质量(精确性)的重要性。数据质量是基于对数据的评估,来确定它是否与预想的应用场景相匹配。一般考虑以下几个维度属性:
- 完整性:通过统计获取的数据包含了多少预期/预定的属性。
- 一致性:从多个系统中获取数据,并汇聚起来一起对比,以此来衡量数据的一致性。
- 正确性:表示收集的数据所能描述客观世界的真实程度。
- 时效性:表示在指定的时间内及适当的场景中,向正确的人提供高质量的能力。
- 元数据: 根据获取的数据中的附加数据来衡量。元数据可以用来定义数据本身,也可以使数据更加便利地使用 。
- 数据血缘:对数据的整个生命周期的跟踪,可能会给组织带来巨大的收益。可以追溯数据的影响范围。
企业数据如何存放
按照数据存放位置划分:
- 内联网
- 互联网
按照数据存储的格式划分:
- 持久化存储引擎
- 传统的数据仓库
- 文件存储
企业现状
- 传统DW/BI
- 使用ETL清洗来自生产业务应用的数据
- 早于一定时间的数据会转移到另外的存储系统(如磁带)中,但是很难对这部分数据进行检索。
- 通常分析速度较慢,即使对查询做了一定程度的优化。
- 明显的缺陷:
- 数据仓库中保存的数据是清洗后的生产数据的子集;在数据仓库中添加任何数据元素都需要付出代价。
- 数据仓库中保存的是全量数据的一个子集,其余数据会转存到另外的持久存储系统中。
- 大数据孤岛
- 一些部门在建设大数据时采取了正确的措施。但是部门间通常不会互相协作,这些大数据平台就成了孤岛,并没有真正给企业带来价值。
- 明显的缺陷:
- 大数据平台的孤立性再次限制了分析师,使得分析师们无法跨部门整合和查询数据。
- 需要大量资金来构建、维护、管理这些数据孤岛,时间一长就难以为继。
- 大量非连接应用
- 在企业内部和云服务中部署大量应用程序。
- 应用程序也产生非结构化数据。
- 显著的缺陷:
- 互相没有通信
- 即使有通信,数据科学家们既不能有效地利用这些数据,也不能对企业进行有益的改进。
- 各个业务应用在多个方面重复使用各种技术。
当然并不是说数据湖就是解决上述缺陷的“银弹”。但至少这个方向一定是正确的。企业至少应该花时间去思考是否确实需要数据湖。如果答案是肯定的,那就不要过多考虑,直接着手去构建。
当然作为一项战略决策,需要公司管理层的全力支持。
企业数字化转型
“数字化转型指的是应用数字化技术,从根本上影响商业和社会的方方面面”----infoworld.com
埃森哲互动曾经委托Forrester咨询公司进行过一项研究,该研究表明数字化转型的关键驱动力是提升盈利能力、客户满意度和产品迭代速度。而技术和数据是实现数字化转型的关键。
转型中的企业都有明确的目标,当然这些目标与它们所处的具体行业有关,但是有一些目标是公共的。如:
- 从根本上改善客户体验
- 消减成本。
- 增加收入
- 差异化竞争
- 调整业务流程,改善商业模式。
具体目标举例:
- 能够对客户进行细分并提供个性化的产品。在恰当的时间向合适的客户推送广告。
- 引进更多的技术,减少体力劳动,企业实现全方位数字化。
- 结合社交信息和企业自身数据,为决策提供支持。
- 以更为量化的方式预测未来,并采取必要措施,提前做好预案。
- 以技术为重要载体实现业务全球化。
数据湖用例
单一客户视图(Single Customer View,SCV)是组织或企业的客户数据的一种聚合的、一致的全貌的表示。----维基百科
企业将客户数据保存在不同的业务应用中,这会导致不同程度的数据孤岛现象。该用例旨在将这些不同来源的数据整合到一起,提供给分析人员查看,从而创建一个包含所有数据的客户视图。通过这个视图,企业能对客户进行细分,进而想客户进行精准广告投放。
这个用例对企业的意义可以归纳为如下几点:
- 客户细分。
- 信息整合。
- 增进客户关系,避免客户流失。
- 更深入的分析等。