看到一篇讲述数据湖的文章,深有感受,故摘录其中一些内容如下:
原文链接:https://www.modb.pro/db/67146
摘文如下:
1970年,在IBM工作的计算机科学家Edgar F. Codd发表了一篇名为“A Relational Model of Data for Large Shared Data Banks”的论文,该论文中正式提到关系数据模型,开启了关系型数据库难以撼动的黄金时代。
Edgar F. Codd于1981年获得计算机界最高奖图灵奖,是第一位获得图灵奖的数据库学者。
国内数据库厂商在数据库研究中的参与度越来越高,国产数据库及相关技术在国际数据库领域的地位逐年攀升。中国新一代数据库在大规模企业应用中的实践经验,以及在湖仓一体、云化部署数据库方面的技术创新,在数据库行业中备受关注,也代表中国在数据库国际性学术会议中已占据非常重要的席位。
湖仓一体:备受瞩目的技术发展趋势
作为现代分析和数据科学的数据基础结构,数据湖开始在企业应用中普及并迅速增长。
云存储与快速灵活的处理相结合,为构建分析应用程序提供了一种廉价且可扩展的解决方案。尽管数据湖使提取和存储大量数据变得容易,但是有效利用这些数据的能力仍然受到限制。
主要两点:
数据通常缺乏上下文,不能满足应用程序所需的质量,并且用户不容易理解或发现;
数据一致性和准确性问题使得很难从数据湖中获取价值,也很难信任基于此数据的分析。
而在数据仓库层面,日常业务运营和来自不同IoT应用程序的传感器等各种来源不断产生大量数据。通常被加载到数据仓库系统中以执行复杂的分析。但是,如果查询涉及联接,尤其是在多个大表上的多对多联接,可能会非常昂贵。由于数据仓库的存储格式以结构化为主,并且历经加工清洗,数据形态显得更加范式化、模型化,因此数据的灵活度较低。
学术界逐渐意识到传统的“湖仓分离”模式所存在的局限性,企业在数据运营、价值挖掘、运维等方面,也遇到了显著的挑战。因此,业界提出了湖仓一体(Data Lakehouse)的概念,旨在为企业提供一个统一的、可共享的数据底座,避免传统的数据湖、数据仓库之间的数据移动,将原始数据、加工清洗数据、模型化数据,共同存储于一体化的“湖仓”中,既能面向业务实现高并发、精准化、高性能的历史数据、实时数据的查询服务,又能承载分析报表、批处理、数据挖掘等分析型业务。
湖仓一体方案的出现,能够帮助企业构建起全新的、融合的数据平台,打破了数据湖与数据仓库割裂的体系,在架构上将数据湖的灵活性、数据多样性以及丰富的生态,与数据仓库的企业级数据分析能力进行融合。
通过对机器学习和AI算法的支持,实现数据湖+数据仓库的闭环,极大地提升业务的效率。数据湖和数据仓库的能力充分结合,形成互补,同时对接上层多样化的计算生态。毫无疑问,湖仓一体将会更好地服务于企业,帮助企业实现大数据能力的提升,如降低成本、提升运营效率、业务模式探索等。
转文至此。
说下个人感受,2015年由 Gartner 提出了HTAP(混合事务 / 分析处理,Hybrid Transactional/Analytical Processing)理念。
基于创新的计算存储框架,HTAP 数据库能够在一份数据上同时支撑业务系统运行和 OLAP 场景,避免在传统架构中,在线与离线数据库之间大量的数据交互。此外,HTAP 基于分布式架构,支持弹性扩容,可按需扩展吞吐或存储,轻松应对高并发、海量数据场景。
目前,实现 HTAP 的数据库不多,主要有 PingCAP 的 TiDB、阿里云的 HybridDB for MySQL、百度的 BaikalDB 、巨杉数据SequoiaDB、TDSQL和OB等,这些均属于MPP类架构下NewSQL。
再讲一下数据发展的未来趋势:云数据库:
数据,是一个公司最重要的核心资产,尤其在当今大数据井喷背景下,数据高效稳定存储与处理的重要性更是不言而喻。未来世界是个信息化时代,数据是其“基石”;潜台词:得数据者,得天下。
数据库云化,或者说数据服务的云端化,是未来的发展趋势。WS创始人Jeff Bezos的一句话说:数据库是云上的终极之战。Gartner预测,而到2022年,75%的数据库要跑在云平台之上。
对于企业来说,自建本地数据库的技术难度和运维成本较高,而购买传统商业数据库,不仅需要购买授权,还要购买数据库的硬件和服务,前期投入非常大,后期业务剧增无法横向高效低成本的扩容,也是很大的制约。
数据库是云上的终极之战:
随全球进入数字化时代,一方面传统数据库厂商的售卖方式和服务方式已经无法满足大多数企业的诉求;另一方面,云计算技术日益成熟,企业上云步伐加快。云数据库因具有“即开即用、稳定可靠、安全运行、弹性伸缩、轻松实用”等优势,逐渐被传统企业所接受,传统数据库开始/最终将向云数据库时代转变。
文章结束。
以下为个人公众号,欢迎扫码关注: