kyuubi：分布式多租户SQL网关

张亭齐Crown

于 2025-03-26 15:27:19 发布

阅读量883

点赞数 11

本文链接：https://blog.youkuaiyun.com/gitblog_00743/article/details/146531780

版权

kyuubi：分布式多租户SQL网关

kyuubi apache/kyuubi - 该项目是一个基于 Apache Spark 的 SQL 查询引擎，提供了一个交互式的命令行界面和 RESTful API，以便于用户快速查询和分析大规模数据集。项目地址: https://gitcode.com/gh_mirrors/kyuu/kyuubi

项目介绍

Apache Kyuubi是一个分布式且多租户的网关，旨在提供无服务器的SQL服务，用于数据仓库和湖仓。它通过Thrift JDBC/ODBC接口，允许终端用户以预编程和可扩展的Spark SQL引擎操纵大规模数据。这种“开箱即用”的模型极大地降低了终端用户在客户端使用Spark的门槛和成本。在服务器端，Kyuubi服务器和引擎的多租户架构为管理员提供了一种实现计算资源隔离、数据安全、高可用性和高客户端并发的方式。

项目技术分析

Kyuubi提供了一种类似于HiveServer2的API，支持多租户Spark，并且可以以无服务器的方式运行Spark。其核心是一个轻量级的服务器，负责接收客户端请求，并根据配置将请求分配到不同的Spark引擎中。这种架构使得Kyuubi可以在不同的集群管理器上运行，如Hadoop YARN和Kubernetes，从而实现资源的共享和隔离。

技术特点

HiveServer2-like API：支持与HiveServer2相似的API，确保用户可以无缝迁移现有的Hive应用。
多租户Spark支持：允许不同的用户或组在同一个Spark集群上隔离运行，提高资源利用率和数据安全性。
无服务器架构：用户无需关心Spark集群的部署和管理，Kyuubi会根据请求自动分配和回收资源。

项目技术应用场景

Kyuubi适用于多种大数据处理场景，以下是几个典型的应用场景：

1. 从HiveServer2迁移到Spark SQL

在许多大数据生产环境中，尤其是安全性较高的环境，访问控制列表（ACL）被用来限制对授权用户的访问。Kyuubi能够扩展Spark Thrift Server（STS）的使用，基于多租户模型与集群管理器交互，从而获得资源共享/隔离和数据安全的能力。与传统的STS相比，Kyuubi的松耦合架构大大提高了客户端并发性和服务稳定性。