本文分享自华为云社区《【华为云Stack】【大架光临】第7期:湖仓一体天花板,大数据一站式SQL分析技术实践》,作者:华为云HetuEngine首席架构师 武文博。
(一)背景
早在2020年5月华为云全球分析师大会中,华为率先提出“湖仓一体”概念,并落地在华为云FusionInsight智能数据湖解决方案中。其中,HetuEngine河图引擎承担一站式SQL分析引擎角色,使能跨源、跨域的一体化分析落地。基于云原生架构,让“逻辑数据湖”大规模数据融合分析提效50倍,本文将详细阐述HetuEngine在实现一站式SQL分析所面临的挑战、技术架构和案例。
(二)需求和挑战
我们调研了上千家客户,对于一站式SQL分析场景,客户提出了一些需求和期望:
跨域逻辑协同,通过计算去中心化,支持高度灵活、复杂拓扑的算力网络,并充分复用现网的硬件设备和数据资源,节省投资;
在跨源方面,打通数据源,将零散的数据,以高性价比的方式实现融合分析,减少ETL,节省时间成本;
云原生已是2021年的热词之一,大数据也不例外,跨源、跨域逻辑协同的数据虚拟化引擎也需要云原生的加持,以实现基于云的弹性伸缩、动态多租、统一入口;
正是因为政企业务爆发式增长,使其对大数据平台的性能要求越来越高,挑战也随之而来。
- 跨域要高效
在跨域协同计算时,临时性任务多,需灵活敏捷的SQL化跨域协同能力,以较小的数据成本和较短的耗时协同分析散落在不同机房、不同数据中心、不同数据源的数据,要求有如下特点:
• 一条SQL语句跨地域执行
业界现有的一些跨域协同方案并不是以SQL语句来实现的,而是在SQL引擎之上建设的一层非SQL接口的任务调度框架。这类实现方案技术难度较低,但是对于业务用户来说使用复杂,灵活性差,不可避免地存在多次数据落盘和拷贝,实时交互式查询场景无法满足时效性要求。
通过一条SQL语句实现跨地域分布式执行,从技术角度看,带给了业务用户优秀的用户体验和极低的学习门槛,接口简单扩展灵活。相应地,跨域协同SQL引擎本身就必须要克服一系列由此产生的困难与挑战。
• 提供近似本地使用体验
要实现跨域SQL访问,需要考虑的主要限制条件如下:
1) 网络条件:跨域要面临的网络条件,往往要比本地网络条件劣化很多倍,客户经常碰到如高时延、低带宽、网络抖动、网络代理瓶颈、网段隔离等挑战;
2) SQL语法:如何在SQL语句层面很方便的表达出想要访问的数据中心下面的数据源的表?如何确保跨域SQL语句写法能够与本地SQL语句无缝衔接?
3) 数据与系统安全:如何确保本地域以外的SQL用户只能感知到本地管理员对外开放的数据列表?如何做到本地域的计算资源、网络资源不被外部SQL请求所耗尽?
第1个问题直接关系到跨域协同的性能体验,第2个问题直接关系到跨域联邦SQL能否易落地、容易被业务用户所接受,第3个问题决定了跨源联邦SQL引擎能否成功上线。
如果跨域联邦SQL引擎无法做到高吞吐(单服务IP端口达到1GB/s的传输能力

华为云HetuEngine是一款高性能分布式SQL查询和数据虚拟化引擎,支持跨域、跨源、云原生的一站式SQL分析。文章介绍了HetuEngine在面对跨域协同和跨源分析的挑战时,如何通过云原生架构提供高吞吐、高性能、动态元数据感知等特性,实现与本地SQL体验一致的交互。在实践中,HetuEngine已在金融行业的工商银行大数据平台中应用,显著提升了交互式查询效率。
最低0.47元/天 解锁文章
345

被折叠的 条评论
为什么被折叠?



