15、云数据湖:架构设计、实现与扩展

云数据湖:架构设计、实现与扩展

1. 数据湖的兴起与本地部署的困境

业务部门期望从 IT 部门存储的数据中提取见解和价值,而非仅仅存储数据。得益于 Hadoop 生态系统的发展,数据湖让具备大数据分析能力的组织超越了单纯的存储卸载概念,使高级分析和机器学习能力成为可能。2010 年代,Hadoop 及相关技术推动了数据湖的大规模应用。

然而,企业在数据湖投资上难以获得足够回报,原因在于总体拥有成本(TCO)、可扩展性、治理和敏捷性方面存在缺陷。本地数据湖的资源利用率和管理总成本可能变得难以控制,资源密集型的数据和分析处理常导致服务级别协议(SLA)无法达成。数据治理和安全问题会引发合规性担忧,且由于资源配置所需时间,分析实验会受到阻碍。

预计到 2025 年,80% 的组织数据将是非结构化的,本地环境已无法以可承受的价格提供足够的环境。云解决方案则允许组织先降低 TCO,再构建创新平台,因为公司内部人员可以专注于业务价值而非硬件管理。

2. 云数据湖的优势

云模式对数据湖极为有益,原因如下:
- 无需将所有数据存储在昂贵且始终运行的 Hadoop 分布式文件系统(HDFS)集群中。对象存储解决方案(如 AWS S3、Azure Blob 存储或 Google Cloud 存储)是完全托管的,具有无限可扩展性,且成本仅为其一小部分。
- Hadoop 集群不仅提供存储功能,还提供处理计算能力,可在短时间内按需创建(几分钟或几秒),由于无需始终运行,可立即节省成本。这些 Hadoop 集群可直接从对象存储读写数据,尽管这种数据访问比读写 HDFS 慢,但临时集群带来的成本节省使整体权衡是值得的。
- 超大规模云

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值