云数据湖:架构设计、实现与扩展
1. 数据湖的兴起与本地部署的困境
业务部门期望从 IT 部门存储的数据中提取见解和价值,而非仅仅存储数据。得益于 Hadoop 生态系统的发展,数据湖让具备大数据分析能力的组织超越了单纯的存储卸载概念,使高级分析和机器学习能力成为可能。2010 年代,Hadoop 及相关技术推动了数据湖的大规模应用。
然而,企业在数据湖投资上难以获得足够回报,原因在于总体拥有成本(TCO)、可扩展性、治理和敏捷性方面存在缺陷。本地数据湖的资源利用率和管理总成本可能变得难以控制,资源密集型的数据和分析处理常导致服务级别协议(SLA)无法达成。数据治理和安全问题会引发合规性担忧,且由于资源配置所需时间,分析实验会受到阻碍。
预计到 2025 年,80% 的组织数据将是非结构化的,本地环境已无法以可承受的价格提供足够的环境。云解决方案则允许组织先降低 TCO,再构建创新平台,因为公司内部人员可以专注于业务价值而非硬件管理。
2. 云数据湖的优势
云模式对数据湖极为有益,原因如下:
- 无需将所有数据存储在昂贵且始终运行的 Hadoop 分布式文件系统(HDFS)集群中。对象存储解决方案(如 AWS S3、Azure Blob 存储或 Google Cloud 存储)是完全托管的,具有无限可扩展性,且成本仅为其一小部分。
- Hadoop 集群不仅提供存储功能,还提供处理计算能力,可在短时间内按需创建(几分钟或几秒),由于无需始终运行,可立即节省成本。这些 Hadoop 集群可直接从对象存储读写数据,尽管这种数据访问比读写 HDFS 慢,但临时集群带来的成本节省使整体权衡是值得的。
- 超大规模云
超级会员免费看
订阅专栏 解锁全文
1592

被折叠的 条评论
为什么被折叠?



