omnidata-hive-connector介绍
omnidata-hive-connector是一种将大数据组件Hive的算子下推到存储节点上的服务,从而实现近数据计算,减少网络带宽,提升Hive的查询性能。目前支持Hive on Tez。omnidata-hive-connector已在openEuler社区开源。
OmniData架构
OmniData是算子下推的总称。OmniData主要由以下四个部分组成:
1. OmniData Client属于开源的部分,为不同的引擎提供相应的插件。对于Hive引擎,omnidata-hive-connector作为OmniData Client,并通过HAF注解和编译插件能力,实现自动下推任务到存储节点的OmniData Server中。
2. Haf Host为lib库,部署在计算节点,对外提供任务卸载的能力,把任务下推到Haf Offload。
3. Haf Offload为lib库,部署在存储节点提供任务执行的能力,用来执行OmniData Server的作业。
4. OmniData Server提供算子下推的执行能力,接收Haf Host下推下来的任务。

omnidata-hive-connector功能
1. 实现将Hive的Filter、Aggregation和Limit算子下推到存储节点进行计算,提前将数据过滤,降低网络传输数据量,提升性能。
2. 实现插件化的方式注册给Hive,以松耦合的方式实现算子的下推,可通过特性开关激活或使能。
3. 实现HDFS/Ceph文件系统的下推。
OmniDataHiveConnector:大数据存储计算优化利器

本文介绍了omnidata-hive-connector,一种用于提升Hive性能的组件,通过将Filter、Aggregation等算子下推到存储节点,减少网络带宽消耗。文章详细阐述了其工作原理、功能、应用场景以及优化策略。
最低0.47元/天 解锁文章
504

被折叠的 条评论
为什么被折叠?



