大数据分析:最佳实践与治理策略
1. 大数据分析的重要性与背景
在当今数字化时代,数据呈现出爆炸式增长,大数据为 IT 领域带来了诸多变革和机遇。人们容易认为需要创建一套全新的规则,但凭借大数据经验,许多最佳实践应运而生。这些实践部分是传统数据仓库与商业智能(DW/BI)领域的延伸,同时也包含了一些新颖的思维方式。
2. 大数据建模最佳实践
2.1 维度化思考
将世界划分为维度和事实是一种有效的思考方式。商业用户对维度的概念易于理解,无论数据格式如何,总能找到如客户、产品、服务、位置或时间等基本关联实体。例如,一条简单的 Twitter 推文,经过分析也能获取客户、位置、产品等维度信息。为了应对高速数据流,需要某种自动化的维度化处理,并且应在数据提取的最早阶段尽可能实时地对数据进行全面维度化。
2.2 用一致性维度整合独立数据源
一致性维度是整合独立数据源并使其能够进行统一分析的关键。其基本理念是在与不同数据源关联的维度版本中存在一个或多个企业属性。以企业的客户维度为例,不同业务流程中的客户维度可能存在差异,但可以定义一个或多个企业属性,如客户人口统计类别,将其嵌入到所有客户维度中。这样,在对不同数据源进行单独查询后,通过简单的排序合并过程,就可以跨所有参与数据源对该客户人口统计类别进行分析。而且,将企业属性引入各个数据库的步骤可以以增量、敏捷且无干扰的方式进行。
2.3 用持久代理键锚定维度
在数据仓库领域,不应使用特定应用程序定义的自然键来锚定主要实体,因为这些自然键在实际应用中存在兼容性和管理问题。每个数据源的第一步是为来自源的自然键添加企业范围内的持久代理键
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



