一文搞懂什么是数据湖(data lake)?

一、概论

data lake数据湖,最早由Pentaho的CTO,James Dixon发明。他在博客中这样描述数据湖:如果你把数据集市看作是一家售卖干净的、规整包装的、便于消费的瓶装水的商店,那么数据湖就是更自然状态下的一大片水域。数据湖的内容从一个源头流入,各类用户可以前来检查,探索或者取样。


在这里插入图片描述
数据湖最重要的特点有两个,第一个是自然,第二个是可以被各类用户使用。我们先讲何为自然,自然在这里指自然而然,未经处理,原始状态。就像一大片湖水一样,原生态。类比到数据,就是原生的数据,未经任何转换和加工。那么我们得到原汁原味的数据有什么意义那,传统的etl为什么不再适用新的业务场景。究其根本,是数据科学家对数据有了更高的需求。随着硬件的快速升级换代,机器学习以及深度学习技术,越来越多的被数据科学家使用。舌尖上的中国,讲高端的食材,不需要特殊的烹饪方法。在此,我们讲,高端的算法往往需要数据保留原始样子,这样数据科学家可以选择更多的特征去训练模型。多年前,我在参与一个人工智能项目时,就曾经因为数据生产出来后,清洗掉了一些关键特征,导致后来花了大量人力去重新让数据拥有那些特征。


再讲被各类用户使用,数据湖拥有原始的数据和经过脱敏以及处理过的数据,这让不同的用户可以从数据湖活的想要的数据。数据分析师可以借助BI工具对简单处理的数据做快速的分析。数据科学家可以顺利的拿到原始数据,去做更高层级的加工分析,不会因为想要的数据被清洗掉了而无能为力。数据湖将被更多类型的用户使用,而不是仅仅服务于一两个web页面。
在这里插入图片描述

总结一下,数据湖是原始数据以及处理过数据的有机集合体,且更强调原汁原味的数据,可以满足不同用户群体的自助使用需求。

二、数据湖架构

待续。。。

在企业数字化转型的浪潮中,湖仓一体架构被视为构建企业数字化基座的关键基石。通过结合数据仓库和数据湖的优势,企业能够优化数据存储和分析流程,从而提升数据科学应用的效果。 参考资源链接:[湖仓一体:企业数字化转型的关键基石——毛亮坚DAMA中国演讲精华](https://wenku.youkuaiyun.com/doc/40nzmb6x1a?spm=1055.2569.3001.10343) 首先,数据仓库擅长处理结构化数据,支持复杂查询和事务分析,对于报告和BI分析至关重要。数据湖则能够存储大量原始数据,包括结构化、半结构化和非结构化数据,为探索性分析提供了可能。在湖仓一体架构中,数据从数据湖流向数据仓库,经过清洗和转换,为数据仓库提供了丰富的数据源,同时数据仓库的高级分析能力也为数据湖中的数据价值挖掘提供了支持。 具体实现步骤如下: 1. 数据整合:集成企业内外部的多元数据源,包括传统数据库、日志文件、传感器数据等。 2. 数据湖搭建:利用如Amazon S3、Azure Data Lake Storage、Hadoop HDFS等存储技术建立数据湖,存储原始数据。 3. 数据治理:实施数据质量管理、元数据管理、数据安全与合规性策略,确保数据湖中的数据可信赖且易于检索。 4. 数据仓库构建:搭建如Amazon Redshift、Google BigQuery、Azure Synapse Analytics等数据仓库,以处理结构化数据和执行复杂查询。 5. 数据流动:开发ETL/ELT流程,确保数据从数据湖到数据仓库的顺畅流动,以及数据仓库更新后,反馈到数据湖的机制。 6. 数据分析和挖掘:应用如SQL、Apache Spark、Python、R等工具,从数据仓库和数据湖中提取数据,进行深入分析和机器学习建模。 通过这样的流程,企业不仅能够提高数据分析的效率和质量,还能快速响应市场变化,驱动业务创新。《湖仓一体:企业数字化转型的关键基石——毛亮坚DAMA中国演讲精华》一文中详细讨论了这些概念,并提供了实际案例和应用实践的深入分析,对于希望在数字化转型中实践湖仓一体架构的企业来说,是一份宝贵的资源。 参考资源链接:[湖仓一体:企业数字化转型的关键基石——毛亮坚DAMA中国演讲精华](https://wenku.youkuaiyun.com/doc/40nzmb6x1a?spm=1055.2569.3001.10343)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

海若[MATRIX]

鼓励将是我最大的动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值