Ray项目中的环境依赖管理：原理与实践指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00628/article/details/148325866

Ray项目中的环境依赖管理：原理与实践指南

ray ray-project/ray: 是一个分布式计算框架，它没有使用数据库。适合用于大规模数据处理和机器学习任务的开发和实现，特别是对于需要使用分布式计算框架的场景。特点是分布式计算框架、无数据库。项目地址: https://gitcode.com/gh_mirrors/ra/ray

概述

在分布式计算框架Ray中，环境依赖管理是一个关键问题。本文将深入探讨Ray项目中如何处理Python包、环境变量和文件等外部依赖，帮助开发者构建可靠的分布式应用。

环境依赖的核心概念

在Ray项目中，我们需要理解几个关键术语：

Ray应用：包含调用ray.init()并使用Ray任务或Actor的Python程序
环境依赖：应用运行所需的外部资源，包括：
- 文件：代码文件、数据文件等
- 包：通过pip或conda安装的外部库
- 环境变量：应用运行需要的系统变量
本地机器与集群：开发环境与生产环境的分离
Ray Job：源自同一脚本的Ray任务、对象和Actor的集合

依赖管理的两种主要方式

1. 集群启动前准备环境

适用场景：生产环境或稳定不变的依赖配置

实现方法：

将依赖打包到容器镜像中，通过Ray集群配置指定
在集群配置中使用setup_commands安装依赖（节点加入时执行）
使用ray rsync_up命令上传本地文件到集群

优势：

环境一致性高
启动后无需额外安装
适合大规模生产环境

2. 运行时环境(Runtime Environments)

适用场景：开发测试或频繁变化的依赖

特点：

动态安装依赖（Ray运行时自动处理）
支持按任务、Actor或Job级别隔离环境
依赖会被缓存以提高性能

基本用法示例：

import ray

runtime_env = {"pip": ["emoji"]}
ray.init(runtime_env=runtime_env)

@ray.remote
def f():
    import emoji
    return emoji.emojize('Python is :thumbs_up:')

print(ray.get(f.remote()))

运行时环境的详细配置

按Job配置环境

可以在Job级别指定运行时环境，适用于整个应用：

# 方式1：直接在ray.init中指定
ray.init(runtime_env={"pip": ["requests"]})

# 方式2：通过Ray Jobs API提交
from ray.job_submission import JobSubmissionClient
client = JobSubmissionClient("http://<head-node-ip>:8265")
job_id = client.submit_job(
    entrypoint="python my_script.py",
    runtime_env={"pip": ["requests"]}
)

注意事项：

通过Job提交API指定的环境会在脚本运行前安装
在ray.init中指定的环境仅影响子任务和Actor
两种方式同时指定时环境会被合并

按任务/Actor配置环境

可以为特定任务或Actor指定独立环境：

@ray.remote(runtime_env={"pip": ["tensorflow"]})
class ModelActor:
    def predict(self, data):
        import tensorflow as tf
        # 模型预测逻辑...

# 或使用.options()
task = some_func.options(runtime_env={"pip": ["pandas"]}).remote()

常见工作流实践

本地文件处理

Ray应用经常需要访问本地文件，可以通过运行时环境自动同步：

import os
import ray

# 准备本地文件
os.makedirs("/tmp/my_files", exist_ok=True)
with open("/tmp/my_files/data.txt", "w") as f:
    f.write("重要数据")

# 指定工作目录
ray.init(runtime_env={"working_dir": "/tmp/my_files"})

@ray.remote
def process_data():
    return open("data.txt").read()  # 自动访问同步的文件

包管理方案

使用pip

ray.init(runtime_env={
    "pip": ["requests", "numpy"],
    # 或指定requirements文件
    # "pip": {"requirements": "requirements.txt"}
})

使用conda

ray.init(runtime_env={
    "conda": {
        "dependencies": ["pytorch", {"pip": ["transformers"]}]
    }
    # 或指定environment.yml
    # "conda": {"environment": "environment.yml"}
})

使用uv工具（推荐）

uv提供了更现代的Python包管理方案：

创建pyproject.toml：

[project]
name = "my_project"
version = "0.1"
dependencies = ["ray", "pandas", "numpy"]

运行应用：

uv run my_script.py  # 本地开发
ray job submit --working-dir . -- uv run my_script.py  # 提交Job

uv的优势：

自动同步驱动程序和Worker的依赖
完整支持pyproject.toml
支持版本锁定(uv lock)
支持可编辑安装(--editable)

最佳实践与注意事项

生产环境建议：优先使用容器镜像预先准备环境
开发环境建议：使用运行时环境提高灵活性
性能考量：
- 避免在运行时构建源码的包
- 大型依赖考虑预安装
环境隔离：
- 不同环境版本的Actor间通信可能导致问题
- 关键服务建议使用稳定环境
缓存机制：相同环境的后续使用会直接利用缓存

通过合理运用Ray的环境管理机制，开发者可以构建既灵活又可靠的分布式应用，有效平衡开发效率与运行稳定性。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考