商业智能与数据仓库的未来

前言

引言:一个发人深省的问题

商业智能和数据仓库是正在衰落的学科吗?

上述问题似乎有些奇怪,毕竟本书涵盖的是管理与领导企业级商业智能(BI)和数据仓库(DW)项目方面的最佳实践,但这个问题确实有必要提出。在本书出版时(2015年),简单地进行一次互联网搜索就会发现大量文章、白皮书和博客宣称——甚至可能为之欢呼——始于1989年至1991年期间的商业智能/数据仓库时代的即将终结。

“长达二十五年如此之多的未达预期甚至失败的商业智能/数据仓库努力已经足够了!”这种论调如是说,并进一步宣称:“大数据和分析时代已经到来,将拯救我们!”

我认为,这个问题的答案并不像许多分析师、顾问和其他观察人士所主张的那样是明确无疑的“肯定”。当然,在过去的二十五年里,正如我们将在第1章中探讨的原因,我们在企业数据仓库(EDW)和企业商业智能(EBI)项目中目睹了过多的不足甚至彻底的失败。然而,声称商业智能/数据仓库时代现在已经结束,并且已经被——或即将被——大数据/分析领域所取代,这至少在我看来并不完全准确。

“数据仓库与大数据”以及“商业智能与分析”这两场争论的背后,实际上在很大程度上取决于术语本身,以及人们如何确切定义这些不同学科及其各自涵盖和不涵盖的范围。许多认为商业智能和数据仓库正在走向衰落的人,其论点是基于将商业智能定义为以下两种情况之一:

  • 仅仅是回顾过去——即符合“告诉我发生了什么以及为什么发生”这一范式的数据驱动的洞察
  • 上述“告诉我发生了什么以及原因”的数据驱动的洞察,以及“告诉我现在正在发生什么”——即实时洞察,同样直接来源于组织的数据资产

然而,在这种观点下,面向未来的、用于形成假设的“告诉我可能发生什么以及原因”这类洞察通常不被视为商业智能领域的一部分。商业智能是一回事,而分析则是另一回事;至少有些人会如此认为。

他们还将指出,通常存储在关系数据库管理系统(DBMSs)中的底层数据仓库是为支持传统商业智能功能而构建的,不太适合提供面向未来的预测分析。因此,有人认为,在传统商业智能与数据仓库和新兴的预测分析时代——以及支持分析功能的大数据引擎之间——必然存在一种二分法。因此,我们必须面对两组相互竞争的姊妹学科:商业智能/数据仓库 versus 大数据/分析。

关于上述情况,许多分析师和顾问确实正确地指出,在当今快节奏的商业世界中,仅关注过去甚至现在情况的传统商业智能已越来越不足以满足广泛的洞察需求。按照这种观点,分析是未来的趋势,可用来识别并干预潜在问题,使其在真正发生之前或至少在问题变得严重之前得以解决。反过来说,与专注于事后回顾的传统商业智能相比,分析也是更早识别高影响力潜在商业机会的手段。

事实上,通过引入以发现为导向的分析——即“从海量数据中挖掘出对我有趣且重要的信息”——现代大数据驱动的分析可能会识别出传统商业智能根本无法发现的商业机遇和潜在问题,并将其有效传递。面对这种新一代的数据驱动的洞察,谁还能质疑分析的价值呢?

按照我的理解,争论不应该是“商业智能与分析”或“数据仓库与大数据”之间的对立,也不应将其中一方视为未来大约二十五年的“赢家”。相反,本书所立足的观点是:商业智能应当被视为一个连续体,该连续体还包括面向未来的和以发现为导向的分析;同样,数据仓库是一种“超级学科”,它无疑正在演进到非关系型技术(即大数据)时代——但仍必须支持整个商业智能功能的连续体。

在一本与此文本配套的书籍《现代企业商业智能与数据管理:面向IT总监、经理和架构师的路线图》(西蒙,2014)中,我回顾了自己近20年前的著作(西蒙,1997)以及我在亚利桑那州立大学(西蒙,2013–2014)的课堂讲义,其中我提出,商业智能最好被定义为一个连续体,包含以下所有能力:

  • 说明发生了什么以及原因
  • 说明当前正在发生什么以及原因
  • 说明可能发生什么以及原因
  • 说明如果我们采取不同行动可能发生什么以及原因
  • 在我不提出具体问题的情况下告知某些有趣且重要的内容

按照我的理解,商业智能(BI)一直——或者至少应该一直——包含对过去、现在、未来以及“隐藏的”方面的洞察(通过以发现为导向的分析实现,即“告诉我一些有趣且重要的信息⋯⋯”)。我当然承认,大多数商业智能实施,无论是企业级还是部门级,最终都主要或仅仅专注于面向事后回顾的“告诉我发生了什么以及原因”的洞察。事实上,我可以进一步指出:在过去二十五年中,太多商业智能实施实际上只产生了很少的成果,除了静态或轻微参数化的报表外,这些报表往往几乎无法提供任何可操作的洞察。

同样,多年来许多数据仓库实施由于其底层的关系型数据库技术或用于实现“切片与切块”商业智能功能的多维立方体等原因,一直是非常困难的工作。在商业智能/数据仓库时代的早期,数据库容量和性能是重大问题。即使底层数据库引擎在核心技术、容量和可用性方面取得了显著进步,它们仍然不太适合如今构成数据科学世界基础的模型驱动型分析。对大多数组织而言,当今“数据科学”的前身通常由统计学家和数学建模人员完成,他们往往以完全脱离正式数据仓库实施的方式自行进行数据获取、管理和分析。

当然,大数据技术震撼了数据驱动的洞察领域,尤其是在预测性和探索性分析方面。但我想强调的是,大数据及其伴随的分析并不会取代传统商业智能和数据仓库;相反,它们出色地填补了BI连续体中本应始终存在的那部分空白!

经典在线分析处理(OLAP)商业智能功能在提供“告诉我发生了什么以及原因”这一关键洞察方面是否仍具作用?我认为:当然有!

能够提供“告诉我现在正在发生什么”这一关键洞察的实时BI仪表板是否仍然有价值?同样,依我之见:绝对有价值!

现在的问题是:经典的联机分析处理(OLAP)是否通过新兴的大数据技术实现了实时洞察的增强?再次强调:当然!

这种涵盖传统商业智能和数据仓库以及新兴的大数据和分析能力的连续体观点并非我独有。例如,多年来广受关注的商业智能/数据仓库思想领袖拉尔夫·金博尔博士提出了“Hadoop数据仓库”的概念(布兰德温,2014)。同样,Wikibon项目的杰夫·凯利和EMC企业信息管理(EIM)的首席技术官比尔·施马佐也支持“将你的数据仓库Hadoop化”的理念(凯利和施马佐,2014)。

此外,IBM最近发布了一张智慧企业的大数据与分析信息图(IBM,2014),展示了:

一个集成的数据存储库,用于存放操作数据;包括数据的着陆区、探索区和活跃归档区;另一个用于深度分析的数据区;以及一个企业级数据仓库和数据集市区

来自上述区域的数据输入到一组集成的能力中,这些能力会告诉用户所有以下内容:

  • “发生了什么?”(发现与探索)
  • “为什么会发生?”(报告与分析)
  • “我学到了什么?”和“什么是最好的?”(认知)
  • “我应该采取什么行动?”(决策管理)
  • “可能发生什么?”(预测性分析与建模)

正如IBM信息图所表达的观点所示,他们似乎接受了商业智能‐分析连续体这一概念,该概念在能力和使用范式上超越了标签和术语的限制。

本书的前提

根据上述叙述,我们现在可以得出本书主题所依据的基本前提,即:

  1. 商业智能和数据仓库并非正在消亡(或已经消亡)的学科,但它们在今天和明天(即2015年及以后)的实施方式必须与二十五年前、甚至大数据技术出现前四五年的情况有所不同——而且也应该如此。

  2. 关于“商业智能”的定义有很多,每个人都可以自由地将任何类型的数据驱动的洞察包含在特定的定义中。然而,就本书而言,商业智能能力将包括之前讨论过的完整连续体:过去、现在、未来以及隐藏/未知的信息。本质上,商业智能应被视为涵盖整个数据驱动的洞察范围的“umbrella”,从报表到联机分析处理,再到仪表板、预测分析、面向发现的分析以及引导式分析应用。

  3. 同样,随着各组织越来越多地(至少部分地)基于Hadoop技术构建其数据仓库环境,我们可以有把握地声明以下观点:“数据仓库 as a discipline并不会消失;相反,我们正在引入新一代技术,这些技术将帮助我们实现过去数据仓库项目中许多未能兑现的承诺。关系型技术目前将与大数据共同占据舞台中心,甚至可能在不久的将来被大数据所取代;但数据仓库的‘精神’——即从众多不同来源综合内容,产生协同效应,并便于轻松访问和使用——将在很长一段时间内持续存在。”

  4. 现在我们进入本书最主要的原因:商业智能和数据仓库无疑是具有挑战性的领域,正如刚才所述,它们正在我们眼前不断演变。然而,企业级商业智能和数据仓库——无论其定义和底层技术如何——andwill continue to be都将是一项艰巨的任务。

在数据仓库(DW)发展的早期,人们常常看到一些高层架构图,图中数十个甚至更多的源系统将数据输入到一个集中式、单一化的企业级数据仓库(EDW)中。然而,我们很快发现,这些看似优雅、整齐划一的高层架构图实际上极难——甚至根本无法——完整实现。

而且,许多真正得以实施并投入运行的企业级数据仓库(EDW),由于20到25年前我们必须面对的技术限制,往往在运行几年后就难以为继。

尽管商业智能工具、数据库管理系统以及主数据管理(MDM)引擎和提取、转换、加载(ETL)工具等支持技术多年来不断演进和完善,但正如我们将在第1章中探讨的那样,企业级商业智能与数据仓库的实现依然如镜花水月。直到最近,许多组织实际上已放弃构建企业级数据仓库以实现企业级商业智能的想法;相反,它们将数据驱动的洞察工作重点放在构建部门级数据集市集合上,这些数据集市希望能够遵循一致性维度等最佳实践,以至少支持基本的“同类比较”报表和洞察。

但我们正处在大数据时代的黎明,而作者认为,本着本书的精神,最好将其视为商业智能/数据仓库的下一波发展,而非其替代者。更确切地说:大数据时代为追求企业级商业智能/数据仓库注入了新的活力和希望。

然而,要实现企业级商业智能/企业级数据仓库,我们不仅需要新一代技术。我们还需要能够从过去的成功与失败中吸取经验教训,并将这些经验应用于当今和未来项目的计划管理者和领导者,以实现企业级的数据驱动的洞察。

而这正是你在接下来的篇幅中将会看到的内容。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值