大数据分析的最佳实践与数据治理
1. 大数据建模的最佳实践
1.1 维度思考
在大数据分析中,维度思考是一种重要的方法。它将世界划分为维度和事实,这对于业务用户来说是自然且直观的概念。无论数据格式如何,都能找到如客户、产品、服务、位置或时间等基本关联实体。例如,一条简单的 Twitter 推文,通过分析也能提取出客户、位置、产品等维度信息。为了应对高速数据流,需要某种自动化的维度化处理,并且应在数据提取的最早阶段尽可能实时地对传入数据进行全面维度化。
1.2 利用一致维度整合不同数据源
一致维度是整合不同数据源并使其能够在单一分析中结合的关键。其基本思想是在与不同数据源关联的维度版本中存在一个或多个企业属性。例如,企业中每个面向客户的流程都有客户维度的不同变体,尽管这些变体可能存在键、字段定义和粒度的差异,但可以定义一个或多个企业属性嵌入到所有客户维度变体中,如客户人口统计类别。完成此操作后,通过简单的排序合并过程,就可以跨所有参与的数据源对该客户人口统计类别进行分析。
1.3 用持久代理键锚定维度
在数据仓库领域,不应使用特定应用定义的自然键来锚定主要实体,因为这些自然键在实际应用中存在诸多问题。每个数据源的第一步是用企业范围的持久代理键增强来自源的自然键。持久意味着没有业务规则可以更改该键,代理键是简单的整数,通过顺序分配或强大的哈希算法生成以保证唯一性。大数据世界中的许多明显维度都必须拥有持久代理键,并且在从原始源提取数据时,首要任务是将持久代理键嵌入到适当的维度中。
1.4 整合结构化和非结构化数据
大数据极大地拓宽了数据整合的挑战,许多大数据不会存储在关系
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



