大数据处理:数据湖架构、挑战与应对策略
1. 数据湖架构概述
数据湖应具备以下主要能力:
- 收集所有有用的数据,包括原始数据、转换后的数据以及来自外部数据源的数据等。
- 允许不同业务部门的用户探索数据,并使用元数据丰富数据。
- 通过不同方法访问共享数据,如批量、交互式、实时等。
- 治理、保护和管理数据及任务。
1.1 数据湖架构组件
数据湖架构的主要组件如图所示,其中心是大数据管理组件,包括数据存储、数据访问、数据分析和资源管理。在这些组件之上,可以构建不同的展示和应用。这些组件属于大数据管理软件栈,可在 Apache 开源软件中找到。
组件 | 描述 |
---|---|
数据存储 | 负责存储各种类型的数据 |
数据访问 | 提供不同方式访问数据 |
数据分析 | 对数据进行分析处理 |
资源管理 | 管理系统资源 |
1.2 与大数据交互的工具
与 Hadoop 配合使用的 BI 工具可分为两种方法:
1. SQL - on - Hadoop :使用 Had