概念篇
问题一
“湖仓一体”是什么?
“湖仓一体”是一种新的架构模式,湖仓一体是将数据湖的灵活性和数仓的易用性、规范性、高性能结合起来的融合架构,无数据孤岛。湖仓一体数据存储在数据湖低成本的存储架构之上,既拥有数据湖数据格式的开放灵活性,又继承了数据仓库的高性能、易用性和规范性。
问题二
湖仓一体是伪命题吗?
当然不是,湖仓一体是一种新的架构模式,虽然它将数据仓库与数据湖的优势充分结合,但它不同于数仓和数据湖的架构。很多新技术和新概念的出现都会伴随着用户的质疑,尤其是在中国数字化快速发展的过程中,甚至出现过昙花一现的新概念,让很多企业投入了无效资源。就湖仓一体这个概念,我们不妨参考下国际权威咨询机构 Gartner 对湖仓一体(Lakehouse)的定位,可以看到湖仓一体正处于快速发展的通道。
Gartner数据管理领域技术成熟度曲线
问题三
湖仓一体貌似是个国外的概念?可能不太适用于中国的国情吧?
有些技术的发展在国内外确实是存在较大差异,比如信息安全技术,APP 等,但在数据库和大数据基础领域,中国与国际的发展非常同步。一个冷知识:由于中国本土存在着非常多的企业有着海量数据需要管理(如四大行、三大运营商、互联网大厂),中国在大规模分布式数据库等方面的技术需求和土壤甚至要超过美国。得益于大型企业的超大数据体量和复杂管理需求,湖仓一体这一技术更可能在中国发展的更快更好。
问题四
可不可以理解为“湖+仓=湖仓一体”?
很多用户误以为湖+仓=湖仓一体,可能是因为湖仓一体整合了湖和仓各自的优势,所以误认为湖仓一体就是原有湖和仓的简单整合而已。
站在技术架构的角度就会更容易理解这个问题,过往建设数据湖采用 Hadoop,建设数仓采用 MPP 数据库,很难想象 Hadoop+MPP=湖仓一体 会是怎样诡异的架构,因为 Hadoop 和 MPP 本身是无法兼容的,只能通过 Hadoop+MPP+统一管理组件 进行逻辑整合,这其实是我们常说的“逻辑湖仓一体”、“湖仓分体”。</