Ray项目深度解析：使用RayDP在Ray上运行Spark

平钰垚Zebediah

于 2025-05-30 09:11:08 发布

阅读量361

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00543/article/details/148326100

Ray项目深度解析：使用RayDP在Ray上运行Spark

ray ray-project/ray: 是一个分布式计算框架，它没有使用数据库。适合用于大规模数据处理和机器学习任务的开发和实现，特别是对于需要使用分布式计算框架的场景。特点是分布式计算框架、无数据库。项目地址: https://gitcode.com/gh_mirrors/ra/ray

什么是RayDP

RayDP是Ray生态系统中一个强大的工具，它巧妙地将Spark和Ray集群结合在一起。通过RayDP，开发者可以：

使用熟悉的PySpark API进行大规模数据处理
无缝地将处理后的数据用于TensorFlow和PyTorch模型训练
在统一的环境中完成从数据预处理到模型训练的全流程

这种集成解决了传统大数据和深度学习工作流分离的问题，极大提高了开发效率。

安装RayDP

安装RayDP非常简单，只需执行以下命令：

pip install raydp

重要注意事项：

需要Ray 1.2.0或更高版本
运行Spark需要所有节点(包括head和worker)安装Java环境
当前支持PySpark 3.0和3.1版本

创建Spark会话

在Ray环境中创建Spark会话非常简单：

import ray
import raydp

# 首先初始化Ray
ray.init()

# 创建Spark会话
spark = raydp.init_spark(
    app_name="example_app",
    num_executors=10,       # 执行器数量
    executor_cores=64,      # 每个执行器的核心数
    executor_memory="256GB" # 每个执行器的内存大小
)

这个Spark会话完全运行在Ray集群上，可以像使用常规Spark一样进行操作。

深度学习与Spark DataFrame集成

使用TensorFlow训练Spark DataFrame

RayDP提供了TFEstimator来简化TensorFlow模型训练：

from raydp.tf import TFEstimator
from tensorflow import keras

# 构建TensorFlow模型
input_1 = keras.Input(shape=(1,))
input_2 = keras.Input(shape=(1,))
concatenated = keras.layers.concatenate([input_1, input_2])
output = keras.layers.Dense(1)(concatenated)
model = keras.Model(inputs=[input_1, input_2], outputs=output)

# 配置TFEstimator
estimator = TFEstimator(
    num_workers=2,              # 工作进程数
    model=model,                # TensorFlow模型
    optimizer=keras.optimizers.Adam(0.01),
    loss=keras.losses.MeanSquaredError(),
    feature_columns=["x", "y"], # 特征列
    label_column="z",           # 标签列
    batch_size=1000,
    num_epochs=2
)

# 在Spark DataFrame上训练
estimator.fit_on_spark(train_df, test_df)

# 获取训练好的模型
trained_model = estimator.get_model()

使用PyTorch训练Spark DataFrame

类似地，RayDP也提供了TorchEstimator支持PyTorch：

from raydp.torch import TorchEstimator
import torch

# 定义PyTorch模型
class LinearModel(torch.nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = torch.nn.Linear(2, 1)
    
    def forward(self, x, y):
        return self.linear(torch.cat([x, y], dim=1))

# 配置TorchEstimator
estimator = TorchEstimator(
    num_workers=2,
    model=LinearModel(),
    optimizer=torch.optim.Adam(model.parameters()),
    loss_fn=torch.nn.MSELoss(),
    feature_columns=["x", "y"],
    label_column="z",
    batch_size=1000,
    num_epochs=2
)

# 训练并获取模型
estimator.fit_on_spark(train_df, test_df)
pytorch_model = estimator.get_model()