杂记 什么是数据湖?

数据湖是一个集中存储结构化和非结构化数据的仓库,允许原样存储并进行多类型分析。阿里云数据湖支持多种数据类型和清洗,具备智能元数据管理和权限控制;GoogleBigLake提供统一的数据仓库和湖存储,实现跨引擎访问;Azure数据湖提供无限规模和数据持久性,支持多类型分析;AWSLakeFormation简化数据分析设置,强调安全和可扩展性;DeltaLake和Snowflake则专注于开放格式存储和高性能处理。各平台在数据治理、安全、性能和成本优化方面各有特色。

一、数据湖概述

1、概念

        数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。

        与数据仓库中的分层存储不同,数据湖是在平面架构中保存大量数据的集中位置。数据湖可以存储来自关系数据库、半结构化数据、非结构化数据和二进制数据的结构化数据,并且可以在“本地”或“云”中设置。下面,我们看看 Google 的 BigLake 如何与流行的数据湖相抗衡。

2、历史

        时任Pentaho首席技术官的 James Dixon 在2011 年创造了该术语,以将其与数据集市进行对比,数据集市是从原始数据中提取的有趣属性的较小存储库。在推广数据湖时,他认为数据集市存在一些固有问题,例如信息孤岛。普华永道(PwC) 表示,数据湖可以“终结数据孤岛”。

        许多公司使用Google Cloud Storage和 Amazon S3等云存储服务或 Apache Hadoop分布式文件系统 (ADFS) 等分布式文件系统。学术界对数据湖的概念逐渐产生兴趣。

        普华永道在他们的研究中还谨慎地指出,并非所有数据湖计划都是成功的。他们引用了Cambridge Semantics的首席技术官 Sean Martin 的话。

        “我们看到客户创建大数据墓地,将所有内容转储到Hadoop 分布式文件系统(HDFS) 中,并希望在未来对其有所作​​为。但随后他们就忘记了那里有什么。主要挑战不是创建数据湖,而是利用它提供的机会。”

二、顶级数据湖工具比较

1、阿里云数据湖

        用户已经基于阿里云开源大数据生态系统(E-MapReduce,实时计算Flink,DLA等产品)来构建自己的数据处理分析平台,而在数据量飞速膨胀的趋势下,用户存储资源与计算资源扩容速度不匹配,有成本优化方面的诉求;大数据生态的丰富,用户的数据来源广泛,元数据分散较难管理,用户希望能统一管理不同存储中的元数据。

        主要优势如下

        支持多种数据类型和入湖渠道,支持数据统一清洗

        智能元数据识别服务,统一收集避免分散管理

        企业级数据权限管理,用户可以针对库、表、字段分别设置权限

        支持上游多种计算引擎,轻松构建全链路数据湖服务

        兼容Hive Metastore,提供多语言Open API,易集成

        独有JindoFS数据加速功能,提供高性能数据湖分析加速能力

2、Google BigLake

        BigLake是一个统一数据仓库和湖的存储引擎。它消除了复制或移动数据的需要,从而降低了成本和效率。BigLake 在 AWS 和 Azure 上的 BigQuery 和多云数据湖中提供细粒度的访问控制和性能加速。BigLake 还使数据可以跨 Google Cloud 和开源引擎统一​​访问。

        “BigLake 将BigQuery十年来的创新扩展到多云存储上的数据湖,采用开放格式确保统一、灵活且具有成本效益的 Lakehouse 架构,”该团队表示。

        BigLake 的主要特点:

        1、在 BigLake 中,用户可以保留一份数据副本,并在大多数分析引擎中实施一致的访问控制。

        2、允许用户通过与Dataplex的无缝集成实现大规模的统一治理和管理。

        3、用户可以通过细粒度的安全控制将 BigQuery 扩展到多云数据湖和开放格式,例如 Parquet 和 ORC,而无需设置新的基础架构。

3、Azure 数据湖

        Azure 数据湖包含旨在帮助开发人员、数据科学家和分析师存储任何大小、形状和速度的数据,并跨平台和语言进行所有类型的处理和分析的功能。Azure Data Lake 消除了摄取和存储所有数据的复杂性,并加快了批处理、流式传输和交互式分析。

        Azure 数据湖的主要功能:

        通过自动异地复制提供无限规模和数据持久性
        精通以相同性能处理要求苛刻的工作负载
        高度安全,具有灵活的数据访问、加密和网络级控制保护机制
        通过独立扩展存储和计算来优化成本
        用于摄取、处理和可视化的单一存储平台,支持最常见的分析框架

4、AWS湖

        AWS Lake Formation 是为分析和 ML 服务设置数据存储的最简单方法之一。AWS 声称为客户提供“最安全、可扩展、最全面和最具成本效益的服务组合”,以在云中构建他们的数据湖。AWS 拥有 NETFLIX、Zillow、纳斯达克、Yelp、iRobot 和 FINRA 等客户,并提供公司结合数据和分析方法所需的规模、敏捷性和灵活性。

        AWS Lake Formation 的主要功能:

        定义和管理安全、治理和审计策略,以满足行业和地理特定的法规。
        随时随地访问您的数据,以及自定义标签条款
        审计日志有助于识别各种服务的数据访问历史记录。
        与其他基于分析的服务集成
        用户可以在至少三个可用区 (AZ) 中自动存储数据副本。可用区相隔几英里以提供容错,但不超过一百英里以确保低延迟。

5、Delta Lake

        Delta Lake 是一个开放格式的存储层,可为流式处理和批处理操作提供可靠性、安全性和性能。Delta Lake 具有成本效益和高度可扩展性,为结构化、半结构化和非结构化数据提供单一存储空间。

        三角洲湖的主要特点:

        1、高质量、可靠的数据,所有数据的单一事实来源,包括实时流
        2、开放和安全的数据共享
        3、Apache Spark 的良好性能
        4、开放和敏捷
        5、自动化和可信的数据工程
        6、大规模的安全和治理

6、Snowflake

        Snowflake 是一家基于云计算的数据仓库公司,提供具有高并发工作负载可扩展性的完全托管服务。它提供了一个基于 Amazon Web Services 构建的云数据仓库。跨云平台可以访问各种工作负载的受管数据自助服务,而不会出现资源争用或并发问题。

        雪花数据湖的主要功能

        1、所有数据的一个平台,结合任何格式的结构化、半结构化和非结构化数据

        2、快速、可靠的处理和查询

        3、安全协作

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

坐望云起

如果觉得有用,请不吝打赏

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值