56、大数据处理:数据湖架构、挑战与应对策略

大数据处理:数据湖架构、挑战与应对策略

1. 数据湖架构概述

数据湖应具备以下主要能力:
- 收集所有有用的数据,包括原始数据、转换后的数据以及来自外部数据源的数据等。
- 允许不同业务部门的用户探索数据,并使用元数据丰富数据。
- 通过不同方法访问共享数据,如批量、交互式、实时等。
- 治理、保护和管理数据及任务。

1.1 数据湖架构组件

数据湖架构的主要组件如图所示,其中心是大数据管理组件,包括数据存储、数据访问、数据分析和资源管理。在这些组件之上,可以构建不同的展示和应用。这些组件属于大数据管理软件栈,可在 Apache 开源软件中找到。

组件 描述
数据存储 负责存储各种类型的数据
数据访问 提供不同方式访问数据
数据分析 对数据进行分析处理
资源管理 管理系统资源

1.2 与大数据交互的工具

与 Hadoop 配合使用的 BI 工具可分为两种方法:
1. SQL - on - Hadoop :使用 Had

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值