大数据分析与治理的最佳实践
在当今数字化时代,大数据为信息技术带来了诸多变革与机遇。虽然人们容易认为需要创建一套全新的规则,但凭借大数据经验,许多最佳实践已经涌现。这些实践部分是传统数据仓库与商业智能(DW/BI)领域的延伸,也有不少是关于数据和信息技术使命的全新思维方式。
1. 大数据建模最佳实践
1.1 维度化思考
将世界划分为维度和事实,这是一种自然且直观的概念。无论数据格式如何,总能找到诸如客户、产品、服务、位置或时间等基本关联实体。在大数据分析中,维度化是一个很好的应用。例如,一条简单的推文“Wow! That is awesome!”,通过分析可以提取出客户、位置、产品等维度信息。为了应对高速数据流,需要某种自动化的维度化方法,并在数据提取的最早阶段尽可能实时地对数据进行全面维度化。
1.2 用一致性维度整合不同数据源
一致性维度是整合不同数据源并使其能够在单一分析中结合的关键。其基本思想是在与不同数据源关联的维度版本中存在一个或多个企业属性。例如,企业中每个面向客户的流程都有客户维度的不同变体,但可以定义一个或多个企业属性,如客户人口统计类别,嵌入到所有客户维度变体中。这样,在对不同数据源进行单独查询后,通过简单的排序合并过程,就可以跨所有参与的数据源对该客户人口统计类别进行分析。而且,将企业属性引入各个数据库的步骤可以以增量、敏捷且无干扰的方式进行。
1.3 用持久代理键锚定维度
在数据仓库领域,不应使用特定应用定义的自然键来锚定主要实体,因为这些自然键在实际应用中存在兼容性和管理问题。每个数据源的第一步是用企业范围的持久代理键增强来自源的自然键。持久意味着没有业务规则可以
大数据分析与治理核心实践
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



