数据湖概念以及数据湖产生的背景和价值

最新推荐文章于 2025-09-25 10:49:29 发布

原创

最新推荐文章于 2025-09-25 10:49:29 发布 · 729 阅读

·

6

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

文章探讨了数据湖作为集中式存储系统的特点，如低成本、大容量和多样性，以及其在互联网爆发背景下的兴起。同时，对比了Hadoop与数据仓库的优缺点，强调了数据湖结合两者优势以提供更好的事务支持和性能。文章还讨论了基于Hive的传统数据仓库的局限性，以及数据湖引入的价值和挑战。

一.数据湖的概念

数据湖是一个集中式存储库，允许以任意规模存储所有结构化和非结构化数据。是构建在低成本分布式存储之上，提供更好事务和性能支持的统一数据存储系统。

最底层为存储层：一般依赖HDFS或者公有云存储（比如S3）保存数据；数据格式为开放格式，比如Parquet或者ORC；
中间层为数据表抽象层：它的关键作用在于提供了表格式的抽象，比如能够支持ACID；
最上层为计算层：基于表抽象层，可以扩展出不同的计算引擎，满足不同的计算需求。

可以看出，由于采用了HDFS或公有云存储，所以数据湖在保存数据上，具有低成本大容量的优点，并且能够保存多种多样的数据，比如结构化、半结构化和非结构化数据；另外，由于表抽象层的存在，保证了ACID事务支持，同时提供了良好的扩展能力，可以面向不同的计算需求对接不同的计算引擎。

二.数据湖产生的背景

1.互联网早期

在互联网早期，各个公司的数据量不大，而且比较单一，因此整个数据架构比较简单，主要是基于关系型数据库搭建。

关系型数据库提供了数据的收集、存储和分析，数据质量比较高，但是能够支撑的数据量有限。

2.互联网爆发

随着互联网的爆发，数据量爆发式增长，原有的数据架构开始暴露出问题：单个关系型数据库无法支撑庞大的数据量。

于是公司会按照业务线等方式，把数据进行拆分，不同的数据库保存不同的数据，比如分别保存订单数据、用户数据等。虽然这种方式在一定程度上解决了问题，但它同时引入了另外一个问题：数据孤岛。如果业务想跨数据库进行数据分析，会非常困难，这严重影响了数据的可用价值。

在这个背景下，数据仓库（Data Warehouse）开始崛起。数据仓库可以集成多个数据库的数据，进行统一的处理分析，从而解决数据孤岛问题。而且相比关系型数据

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。