数据湖是一种存储。
和传统数据仓库对比
| 特征 | 数据仓库 | 数据湖 |
|---|---|---|
| 数据 | 来自事务系统、运营数据库和业务线应用程序的关系数据 | 来自 IoT 设备、网站、移动应用程序、社交媒体和企业应用程序的非关系和关系数据 |
| schema | 设计在数据仓库实施之前(写入型 Schema) | 写入在分析时(读取型 Schema) |
| 性价比 | 更快查询结果会带来较高存储成本 | 更快查询结果只需较低存储成本 |
| 数据质量 | 可作为重要事实依据的高度监管数据 | 任何可以或无法进行监管的数据(例如原始数据) |
| 用户 | 业务分析师 | 数据科学家、数据开发人员和业务分析师(使用监管数据) |
| 使用场景 | 批处理报告、BI 和可视化 | 机器学习、预测分析、数据发现和分析 |
数据湖的解决方案主要有三种
- delta(背后是spark开发公司Databricks)
- Apache Iceberg(NetFlix推出的)
- Apache Hudi(Ubser推出的)


ORC是hadoop生态圈的一种底层列式文件存储格式,HIVE的表就是按照ORC格式进行存储的。
iceberg实际上是上述的table format层。
数据写入ICEberg可以参考
https://blog.youkuaiyun.com/wypblog/article/details/109882022
iceberge的存储结构如下

本文探讨了数据湖与传统数据仓库的区别,包括数据来源、schema设计、性价比、数据质量等方面,并介绍了数据湖的主要解决方案如Delta、Apache Iceberg及Apache Hudi等。
1700

被折叠的 条评论
为什么被折叠?



