数据虚拟化与转换服务:挑战、模式与实现
在大数据时代,数据的存储和处理变得越来越复杂。不同的数据存储格式、多样的处理引擎以及海量的数据规模,给数据用户带来了诸多挑战。为了应对这些挑战,数据虚拟化和数据转换服务应运而生。本文将深入探讨数据虚拟化的实现模式以及数据转换服务的相关内容。
数据虚拟化服务的成本与调试性
数据虚拟化在计算上成本高昂,因此优化相关成本至关重要。同时,在大规模生产部署中,在虚拟化服务上开发的查询应易于监控和调试,以确保其正确性和性能。
数据虚拟化服务的实现模式
数据虚拟化服务对应现有任务图,有三个自动化级别,每个级别对应自动化处理当前手动或低效的任务组合:
1. 自动查询路由模式
- 模式目标 :自动将查询路由到处理集群,用户只需将作业提交给虚拟化服务。路由模式会考虑查询和集群属性以及当前集群负载,就像查询与可用处理集群之间的“媒人”。
- 工作流程 :
- 处理作业提交到作业 API,指定作业属性,如作业类型(Hive、Presto、Spark)、命令行参数和文件依赖集。
- 数据虚拟化服务为每个提交的作业生成自定义运行脚本,允许作业在运行时选择的不同处理集群上运行。
- 根据当前负载和其他属性,选择一个集群执行作业,并将请求提交给作业编排服务执行。
- 示例 :Netflix 的 Genie 是开源实现的例子。Web 2.0 公司如 Facebook 也有内部实现的变体,会分析查询的数据基数和复杂度,将短运行、交互式查询路由到
超级会员免费看
订阅专栏 解锁全文


被折叠的 条评论
为什么被折叠?



