Ray项目中的Tune模块：持久化存储配置完全指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00276/article/details/148360511

Ray项目中的Tune模块：持久化存储配置完全指南

ray ray-project/ray: 是一个分布式计算框架，它没有使用数据库。适合用于大规模数据处理和机器学习任务的开发和实现，特别是对于需要使用分布式计算框架的场景。特点是分布式计算框架、无数据库。项目地址: https://gitcode.com/gh_mirrors/ra/ray

概述

在分布式机器学习训练过程中，如何有效地管理和持久化实验数据是一个关键问题。Ray项目的Tune模块提供了灵活的存储配置选项，帮助用户实现实验数据的可靠存储和高效访问。本文将详细介绍Ray Tune中的持久化存储配置方法，帮助开发者构建健壮的分布式训练系统。

为什么需要持久化存储

在分布式训练场景下，持久化存储配置解决了几个核心问题：

试验级容错：当节点故障或实验暂停后恢复时，试验可能被调度到不同节点，但仍需访问最新检查点
实验级容错：集群意外崩溃后，需要恢复整个实验状态和所有试验检查点
实验后分析：集中存储所有试验数据，便于后续分析最佳检查点和超参数配置
下游任务集成：方便将训练生成的模型和产物用于后续服务或批量推理任务

存储配置选项详解

Ray Tune支持三种主要的存储场景配置：

1. 云存储配置（AWS S3、Google云存储）

当集群所有节点都能访问云存储时，可以将所有实验输出保存到共享的云存储桶中。

from ray import tune

tuner = tune.Tuner(
    trainable,
    run_config=tune.RunConfig(
        name="experiment_name",
        storage_path="s3://bucket-name/sub-path/",
    )
)
tuner.fit()

关键点：

实验结果将保存在云存储的指定路径下
头节点不会本地保存所有实验结果
实验恢复应从云存储URI进行，而非本地路径

2. 网络文件系统配置（NFS）

当所有节点都能访问网络文件系统时，可将实验输出写入共享目录。

from ray import tune

tuner = tune.Tuner(
    trainable,
    run_config=tune.RunConfig(
        name="experiment_name",
        storage_path="/mnt/path/to/shared/storage/",
    )
)
tuner.fit()

适用场景：

企业内部部署的共享存储系统
云服务提供的共享文件系统（如AWS EFS、Google云文件存储）

3. 单节点本地存储配置

在单节点环境（如笔记本电脑）中，Tune默认使用本地文件系统存储检查点和产物。

from ray import tune

tuner = tune.Tuner(
    trainable,
    run_config=tune.RunConfig(
        storage_path="/tmp/custom/storage/path",
        name="experiment_name",
    )
)
tuner.fit()

注意事项：

默认保存路径为~/ray_results
多节点集群不建议使用本地存储，会触发错误

实战示例：云存储配置与恢复

下面是一个完整的云存储配置示例，包含实验恢复流程：

import os
import ray
from ray import tune
from your_module import my_trainable

tuner = tune.Tuner(
    my_trainable,
    run_config=tune.RunConfig(
        name="my-tune-exp",
        storage_path="s3://my-checkpoints-bucket/path/",
        checkpoint_config=tune.CheckpointConfig(
            checkpoint_score_attribute="max-auc",
            checkpoint_score_order="max",
            num_to_keep=5,
        ),
    ),
)
results = tuner.fit()

实验恢复方法：

from ray import tune
tuner = tune.Tuner.restore(
    "s3://my-checkpoints-bucket/path/my-tune-exp",
    trainable=my_trainable,
    resume_errored=True,
)
tuner.fit()

恢复选项说明：