基于华为云原生数据湖MRS HetuEgine的数据虚拟化实践

最新推荐文章于 2025-03-06 23:21:31 发布

原创

最新推荐文章于 2025-03-06 23:21:31 发布 · 677 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#云计算 #华为云

华为云原生数据湖平台HetuEngine作为一款优秀数据虚拟化引擎，解决了跨源跨域数据高效访问问题。它提供统一SQL接口，支持跨Hadoop平台、MPP数据库、数据集市进行数据访问，适用于多个数据湖联合分析。

【摘要】 大数据时代的技术特点导致一个企业的数据分散存储在不同组件甚至不同地域的不同组件之中，为企业数据的高效使用带来挑战。数据虚拟化技术使应用在不关心数据源的数据格式及物理存储位置的情况下以一种统一的方式获取和使用整个组织中所有的数据。华为云原生数据湖MRS HetuEngine就是一款优秀的数据虚拟化引擎，并在众多企业的数字化转型过程中落地实践。

数据虚拟化是指一种数据管理方式，允许应用在不关心数据源的数据格式及物理存储位置的情况下以一种统一的方式获取和使用整个组织中所有的数据。与数据虚拟化方式对应的一种方式是传统的ETL方式，数据经过抽取、转换和装载的过程，将不同系统的数据收集到一个统一的物理系统中，并经过标准化处理进行格式的统一。数据虚拟化的特点是不改变数据存储位置，实时访问。根据Gartner发布的数据管理技术成熟度曲线，数据虚拟化技术已经进入了生产成熟期，相关理论和技术也已经成熟，如果企业正在受困于各系统或者各部门数据无法高效打通的问题，可以考虑采用数据虚拟化技术。

早期的一种数据虚拟化实践是数据库联邦，在不同的数据库之间建立JDBC/ODBC连接的方式，以标准SQL的方式跨数据库进行数据实时访问。这种方式在传统数据库模式下一定程度上解决了跨数据源实时数据访问的问题。但是在大数据时代，数据的存储和访问方式已经完全不同，每种数据处理组件只解决一个特定的场景问题，具有不同的数据存储方式、组织方式和访问方式。如Hdoop用于解决大规模数据的批量计算，Hbase用于海量数据的实时精确检索，ElasticSearch用于海量数据的综合检索，还有MPP数据库、图数据库、内存数据库、时序数据库等等，百花齐放，百家争鸣，共同形成了大数据时代的数据处理技术栈，解决各个场景下的大规模数据处理问题。在实际的应用中，为了满足业务不同维度的需求，往往在同一个业务中同时使用了不同的处理组件，甚至是分布在不同地域的不同数据处理组件，造成了业务复杂度高，数据冗余，访问效率低等问题。

大数据时代的数据虚拟化技术就是要解决这种跨源跨域场景下的数据高效访问问题，以一种统一的接口，接近原生系统的性能，跨地域的方式进行数据访问。而要满足上述要求，一个数据虚拟化产品需要具备下面的四个功能：