15、云数据湖：架构设计、实现与扩展

最新推荐文章于 2025-12-12 16:37:00 发布

r2s3t4

最新推荐文章于 2025-12-12 16:37:00 发布

阅读量23

点赞数

CC 4.0 BY-SA版权

分类专栏：构建云上智能数据平台文章标签：云数据湖架构设计数据治理

本文链接：https://blog.youkuaiyun.com/r2s3t4/article/details/152782094

构建云上智能数据平台专栏收录该内容

34 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

云数据湖：架构设计、实现与扩展

1. 数据湖的兴起与本地部署的困境

业务部门期望从 IT 部门存储的数据中提取见解和价值，而非仅仅存储数据。得益于 Hadoop 生态系统的发展，数据湖让具备大数据分析能力的组织超越了单纯的存储卸载概念，使高级分析和机器学习能力成为可能。2010 年代，Hadoop 及相关技术推动了数据湖的大规模应用。

然而，企业在数据湖投资上难以获得足够回报，原因在于总体拥有成本（TCO）、可扩展性、治理和敏捷性方面存在缺陷。本地数据湖的资源利用率和管理总成本可能变得难以控制，资源密集型的数据和分析处理常导致服务级别协议（SLA）无法达成。数据治理和安全问题会引发合规性担忧，且由于资源配置所需时间，分析实验会受到阻碍。

预计到 2025 年，80% 的组织数据将是非结构化的，本地环境已无法以可承受的价格提供足够的环境。云解决方案则允许组织先降低 TCO，再构建创新平台，因为公司内部人员可以专注于业务价值而非硬件管理。

2. 云数据湖的优势

云模式对数据湖极为有益，原因如下：
- 无需将所有数据存储在昂贵且始终运行的 Hadoop 分布式文件系统（HDFS）集群中。对象存储解决方案（如 AWS S3、Azure Blob 存储或 Google Cloud 存储）是完全托管的，具有无限可扩展性，且成本仅为其一小部分。
- Hadoop 集群不仅提供存储功能，还提供处理计算能力，可在短时间内按需创建（几分钟或几秒），由于无需始终运行，可立即节省成本。这些 Hadoop 集群可直接从对象存储读写数据，尽管这种数据访问比读写 HDFS 慢，但临时集群带来的成本节省使整体权衡是值得的。
- 超大规模云