湖仓一体架构在火山引擎 LAS 的探索与实践

动手点关注

7656cd3d8441eefd0fb00b6f037d2138.gif

干货不迷路

火山引擎湖仓一体分析服务 LAS(Lakehouse Analytics Service),是面向湖仓一体架构的 Serverless 数据处理分析服务,提供字节跳动最佳实践的一站式 EB 级海量数据存储计算和交互分析能力,兼容 Spark、Presto 生态,帮助企业轻松构建智能实时湖仓。

LAS 服务是什么?LAS 有哪些优化特性?本文将从基础概念、数据库内核特性优化、数据服务化、业务实践等角度全方位介绍湖仓一体架构在LAS的探索与实践。

LAS服务是什么?

在了解 Las 服务是什么之前,先来了解一下数据平台整体行业的发展趋势,大概分为三个阶段。

f2ad53d7d3999cd195e841fe31545964.png

第一阶段,一般被称为传统数仓,一种从 1980 年开始的基于传统数据库技术来做的 BI 分析场景。在这种架构下,通常计算和存储是高度一体的。整体系统能支撑的计算能力,依赖于服务提供商的硬件配置,整体成本高,存在物理上限,扩展起来比较麻烦。

第二阶段,随着技术的演进, 2010 年开始出现了以 Hadoop 技术体系为主流的传统数据湖。在以 Hadoop 技术为主的数据平台架构下,通常可以支持服务在普通硬件上面去部署,整体的计算和存储的扩展性都得到了解决。基于开源技术生态,多个大型公司也参与到数据湖技术发展中来,整体生态繁荣度也在逐步提升。

但在这一阶段凸显出了一个问题,随着生态技术的发展,越来越多的开源组件开始累积。对于一个企业来说,为了解决不同领域的问题,需要运维多个开源的组件,来满足不同领域的数据需求,就导致整个企业的技术运维成本逐步提升。

基于这个问题,随着技术的进一步发展,在 2020 年,湖仓一体的架构开始被提出。

相比起传统数据湖,湖仓一体架构支持原生的 ACID 能力,支持像 BI 分析、报表分析,机器学习和流式分析多种类型的计算范式,以及云上的对象存储和弹性计算能力。以上能力,让湖仓一体架构能够有效地去解决企业的对数据规模,以及对计算能力的弹性伸缩需求。同时,湖仓一体可以在很大程度上规避传统 Lambda 架构存在的多个计算组件,或者多种架构范式导致的架构负担,让企业能够更专注地去解决他们的业务价值。

5a91d5b0e1e0b00e1b05b129adbaa1b1.png

LAS 就是基于湖仓一体的架构进行设计的。从上图来看,LAS 架构整体上分为三个部分。最上层是开发工具层,开发工具层会通过计算层提供的统一 SQL 访问服务去访问计算层,根据用户的 SQL 类型自动做 SQL 解析。所有引擎计算能力统一由弹性容器服务来提供,可以支持弹性伸缩,按需使用。

再往下就是湖仓一体的存储层。首先,湖仓一体存储会通过统一的元数据服务,向计算层提供统一的元数据视图,屏蔽底层的具体元数据实现细节,可以使多个引擎无缝对接到统一的元数据服务。

接下来是湖仓存储引擎,它主要提供了事务管理能力,也就是 ACID 的能力,以及对数据批流一体的读写能力。

再往下就是 LAS 基于火山引擎对象存储服务 TOS 和 CloudFS ,来提供 EB 级的数据存储能力和数据访问的缓存加速能力。

以上就是 LAS 整体的技术架构。

LAS 数据湖内核剖析

这一版块将向大家呈现 LAS 数据湖内核的特性及优化。

a2fedc1155703aa5cc1dc5fa0a096344.png

LAS 的数据湖内核—— ByteLake 它是什么?

首先,ByteLake 是基于开源 Apache Hudi 进行内部增强的湖仓一体存储引擎,提供湖仓一体的存储能力。

它的第一个主要能力是提供了湖仓统一的元数据服务,完全兼容开源的 Hive Metastore,可以无缝对接多种计算引擎。第二个主要能力是可以支持对海量数据的 Insert,完全兼容 Hive SQL,可以平迁传统数仓场景下的 Hive 任务。第三&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值