Spark JobServer 的 Python 支持详解-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00252/article/details/148758191

Spark JobServer 的 Python 支持详解

spark-jobserver spark-jobserver/spark-jobserver: 是一个用于管理和调度 Apache Spark 作业的分布式计算平台。适合对分布式计算和 Apache Spark 有兴趣的人，特别是想使用 Apache Spark 进行大规模数据处理和实时计算的人。特点是提供了一套简洁易用的 API，支持多种集群环境和调度策略，具有高性能和可扩展性。项目地址: https://gitcode.com/gh_mirrors/sp/spark-jobserver

项目概述

Spark JobServer 是一个基于 REST 接口的 Spark 作业服务框架，它允许用户通过 HTTP 方式提交和管理 Spark 作业。本文将重点介绍该项目对 Python 语言的支持特性，包括环境配置、作业开发、部署运行等核心内容。

Python 支持环境配置

要使 Spark JobServer 支持 Python 作业，需要进行以下配置：

基础配置要求：
- 必须使用 job-server-extras 模块的 assembly jar
- 在配置中指定使用 JobSqlDAO 作为作业存储方式
关键配置参数：

spark {
  jobserver {
     jobdao = spark.jobserver.io.JobSqlDAO
  }

  context-settings {
    python {
      paths = [
        ${SPARK_HOME}/python,
        "/path/to/spark_jobserver_python-0.10.1_SNAPSHOT-py3-none-any.whl"
      ]
      executable = "python3"  # 可指定为python2或其他路径
    }
  }
}

Python依赖：
- 必须安装 py4j 和 pyhocon 包
- 可通过系统安装或添加到配置路径中

Python 作业开发指南

作业接口规范

Python 作业需要实现以下接口方法：

from sparkjobserver.api import SparkJob, build_problems

class MyPythonJob(SparkJob):
    def validate(self, context, runtime, config):
        """验证输入配置"""
        if not config.get('required.param'):
            return build_problems(['缺少必要参数'])
        return config.get('input.data')

    def run_job(self, context, runtime, data):
        """执行作业逻辑"""
        return context._sc.parallelize(data).countByValue()

返回值类型限制

Python 作业返回值需为以下类型之一：

基本类型：bool, int, float, str 等
字典（转换为 Scala Map）
列表（转换为 Scala List）
支持嵌套结构如 Map[String, List[Int]]

作业打包发布

Python 作业需要打包为 Egg 或 Wheel 格式：

项目结构示例：

my_job_package/
├── setup.py
└── my_job_package/
    ├── __init__.py
    └── job_impl.py

setup.py 示例：

from setuptools import setup
setup(
    name='my_job_package',
    version='0.1.0',
    packages=['my_job_package']
)

构建命令：

python setup.py bdist_wheel

作业部署与执行

上传作业包

使用不同 Content-Type 上传对应格式的包：

curl --data-binary @dist/my_job.whl \
     -H 'Content-Type: application/python-wheel' \
     localhost:8090/binaries/my_py_job

创建Python上下文

curl -X POST "localhost:8090/contexts/py-context?context-factory=spark.jobserver.python.PythonSessionContextFactory"

提交作业

curl -d 'input.strings = ["a", "b", "a"]' \
     "localhost:8090/jobs?appName=my_py_job&classPath=my_package.MyJob&context=py-context"

高级特性

PythonSessionContext 使用

PythonSessionContext 提供完整的 Spark Session 访问能力：

def run_job(self, context, runtime, data):
    df = context.createDataFrame(data, ['col1', 'col2'])
    df.createOrReplaceTempView('mytable')
    result = context.sql("SELECT COUNT(*) FROM mytable").collect()
    return result[0][0]