Apache Kyuubi与Spark Thrift Server深度对比解析

杭臣磊Sibley

于 2025-06-27 09:23:51 发布

阅读量262

点赞数 5

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00079/article/details/148945005

Apache Kyuubi与Spark Thrift Server深度对比解析

kyuubi Apache Kyuubi is a distributed and multi-tenant gateway to provide serverless SQL on data warehouses and lakehouses. 项目地址: https://gitcode.com/gh_mirrors/kyuubi1/kyuubi

引言

在大数据生态系统中，SQL接口服务扮演着重要角色。本文将深入分析Apache Kyuubi与Spark Thrift Server（STS）的技术差异与设计理念，帮助读者理解两者的核心区别与适用场景。

基础架构对比

Spark Thrift Server架构

Spark Thrift Server本质上是一个长期运行的Spark应用，采用多线程模型处理客户端请求：

前端线程池处理JDBC连接和操作请求
后端调用SparkSession接口执行SQL
所有查询在同一个Spark应用上下文执行

这种架构的优势在于避免了每次查询启动Spark应用的开销，但存在明显的单点瓶颈问题。

Kyuubi架构

Kyuubi采用服务端-引擎分离架构：

Kyuubi Server作为轻量级服务网关
按需创建Kyuubi Engine（Spark应用）
支持多种资源隔离级别（USER/CONNECTION等）

这种设计从根本上解决了单点瓶颈问题，实现了真正的多租户支持。

核心问题与解决方案

1. 多租户支持

Spark Thrift Server局限：

单一Spark应用上下文
全局唯一用户身份
资源队列固定无法动态调整

Kyuubi解决方案：

基于Kyuubi Engine实现租户隔离
每个Engine对应独立Spark应用
支持动态资源分配与回收

2. 高可用性

Spark Thrift Server局限：

社区版不支持HA
主备模式资源浪费严重
故障转移代价高昂

Kyuubi解决方案：

原生支持高可用部署
无状态服务网关设计
引擎自动故障恢复

3. 资源隔离

Spark Thrift Server局限：

仅支持Fair Scheduler Pools
逻辑隔离效果有限
无法动态调整资源配额

Kyuubi解决方案：

物理级别资源隔离
支持YARN/K8s资源管理
动态资源分配(DRA)支持

4. 安全控制

Spark Thrift Server局限：

缺乏细粒度权限控制
配置信息可能泄露
UDF存在安全隐患

Kyuubi解决方案：

端到端用户身份传递
支持SQL标准ACL
安全沙箱运行UDF

功能特性对比

| 特性维度 | HiveServer2 | Spark ThriftServer | Kyuubi | |-------------------|-------------------|--------------------|-------------------| | SQL语法 | HiveQL | Spark SQL | Spark SQL | | 优化器 | Hive优化器 | Spark Catalyst | Spark Catalyst | | 执行模式 | 多Spark应用 | 单应用多线程 | 多引擎动态管理 | | UDF管理 | 服务端加载 | 服务端加载 | 引擎隔离加载 | | 多版本支持 | 单版本 | 内置版本 | 多版本兼容 | | 元数据管理 | HMS | HMS | 支持多种数据湖 | | 客户端并发 | 高 | 低 | 高 | | 资源管理 | 查询级别 | 固定资源池 | 引擎动态调配 |