湖仓一体天花板，大数据一站式交互式SQL分析技术

最新推荐文章于 2025-08-02 22:39:37 发布

原创

最新推荐文章于 2025-08-02 22:39:37 发布 · 602 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#云计算 #华为云

华为云HetuEngine是一款高性能分布式SQL查询和数据虚拟化引擎，支持跨域、跨源、云原生的一站式SQL分析。文章介绍了HetuEngine在面对跨域协同和跨源分析的挑战时，如何通过云原生架构提供高吞吐、高性能、动态元数据感知等特性，实现与本地SQL体验一致的交互。在实践中，HetuEngine已在金融行业的工商银行大数据平台中应用，显著提升了交互式查询效率。

本文分享自华为云社区《【华为云Stack】【大架光临】第7期：湖仓一体天花板，大数据一站式SQL分析技术实践》，作者：华为云HetuEngine首席架构师武文博。

（一）背景

早在2020年5月华为云全球分析师大会中，华为率先提出“湖仓一体”概念，并落地在华为云FusionInsight智能数据湖解决方案中。其中，HetuEngine河图引擎承担一站式SQL分析引擎角色，使能跨源、跨域的一体化分析落地。基于云原生架构，让“逻辑数据湖”大规模数据融合分析提效50倍，本文将详细阐述HetuEngine在实现一站式SQL分析所面临的挑战、技术架构和案例。

（二）需求和挑战

我们调研了上千家客户，对于一站式SQL分析场景，客户提出了一些需求和期望：

跨域逻辑协同，通过计算去中心化，支持高度灵活、复杂拓扑的算力网络，并充分复用现网的硬件设备和数据资源，节省投资；
在跨源方面，打通数据源，将零散的数据，以高性价比的方式实现融合分析，减少ETL，节省时间成本；
云原生已是2021年的热词之一，大数据也不例外，跨源、跨域逻辑协同的数据虚拟化引擎也需要云原生的加持，以实现基于云的弹性伸缩、动态多租、统一入口；

正是因为政企业务爆发式增长，使其对大数据平台的性能要求越来越高，挑战也随之而来。

跨域要高效

在跨域协同计算时，临时性任务多，需灵活敏捷的SQL化跨域协同能力，以较小的数据成本和较短的耗时协同分析散落在不同机房、不同数据中心、不同数据源的数据，要求有如下特点：

• 一条SQL语句跨地域执行

业界现有的一些跨域协同方案并不是以SQL语句来实现的，而是在SQL引擎之上建设的一层非SQL接口的任务调度框架。这类实现方案技术难度较低，但是对于业务用户来说使用复杂，灵活性差，不可避免地存在多次数据落盘和拷贝，实时交互式查询场景无法满足时效性要求。

通过一条SQL语句实现跨地域分布式执行，从技术角度看，带给了业务用户优秀的用户体验和极低的学习门槛，接口简单扩展灵活。相应地，跨域协同SQL引擎本身就必须要克服一系列由此产生的困难与挑战。

• 提供近似本地使用体验

要实现跨域SQL访问，需要考虑的主要限制条件如下：

1) 网络条件：跨域要面临的网络条件，往往要比本地网络条件劣化很多倍，客户经常碰到如高时延、低带宽、网络抖动、网络代理瓶颈、网段隔离等挑战；

2) SQL语法：如何在SQL语句层面很方便的表达出想要访问的数据中心下面的数据源的表？如何确保跨域SQL语句写法能够与本地SQL语句无缝衔接？

3) 数据与系统安全：如何确保本地域以外的SQL用户只能感知到本地管理员对外开放的数据列表？如何做到本地域的计算资源、网络资源不被外部SQL请求所耗尽？

第1个问题直接关系到跨域协同的性能体验，第2个问题直接关系到跨域联邦SQL能否易落地、容易被业务用户所接受，第3个问题决定了跨源联邦SQL引擎能否成功上线。

如果跨域联邦SQL引擎无法做到高吞吐（单服务IP端口达到1GB/s的传输能力

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。