Determined AI Core API 使用指南：从基础到分布式训练

最新推荐文章于 2025-06-12 09:11:08 发布

原创最新推荐文章于 2025-06-12 09:11:08 发布 · 254 阅读

CC 4.0 BY-SA版权

Determined AI Core API 使用指南：从基础到分布式训练

determined Determined is an open-source machine learning platform that simplifies distributed training, hyperparameter tuning, experiment tracking, and resource management. Works with PyTorch and TensorFlow. 项目地址: https://gitcode.com/gh_mirrors/de/determined

概述

Determined AI 是一个开源的深度学习训练平台，其 Core API 提供了一套灵活的工具集，允许开发者将现有的训练代码快速集成到平台中。本文将详细介绍如何使用 Core API 进行模型训练，包括基础功能实现和高级特性应用。

核心功能概览

Core API 主要提供以下核心功能：

指标报告：实时监控训练和验证指标
检查点保存：支持训练中断恢复
超参数搜索：自动化超参数优化
分布式训练：简化多GPU/多节点训练

环境准备

基础要求：

已部署的 Determined 集群

推荐准备：

熟悉 Python 深度学习框架（PyTorch/TensorFlow）
了解基本的机器学习工作流程

实战教程

第一步：基础实验运行

任何实验运行都需要两个基本文件：

训练脚本（Python）
实验配置文件（YAML）

典型目录结构：

experiment/
├── model_def.py      # 训练脚本
└── const.yaml        # 实验配置文件

启动命令示例：

det e create const.yaml . -f

-f 参数表示跟随第一个实验的日志输出。

第二步：指标报告实现

关键修改点：

导入 Determined 核心模块：

import determined as det

创建核心上下文对象：

core_context = det.core.Context()

训练指标报告：

core_context.train.report_training_metrics(
    steps_completed=steps_completed,
    metrics={"loss": loss.item()}
)

验证指标报告：

core_context.train.report_validation_metrics(
    steps_completed=steps_completed,
    metrics={"test_loss": test_loss}
)

效果验证： 修改完成后，WebUI 的 Overview 标签页将显示训练和验证指标曲线。

第三步：检查点实现

关键功能实现：

检查点保存：

with core_context.checkpoint.store_path({"model": model.state_dict()}) as path:
    torch.save({
        "model_state_dict": model.state_dict(),
        "optimizer_state_dict": optimizer.state_dict(),
        "batch_idx": batch_idx,
        "experiment_id": experiment_id
    }, path / "checkpoint.pt")

训练恢复处理：

def load_state(checkpoint_dir):
    checkpoint = torch.load(checkpoint_dir / "checkpoint.pt")
    model.load_state_dict(checkpoint["model_state_dict"])
    optimizer.load_state_dict(checkpoint["optimizer_state_dict"])
    return checkpoint["batch_idx"], checkpoint["experiment_id"]

中断处理：

if core_context.preempt.should_preempt():
    return

最佳实践：

区分暂停恢复和新实验启动
保存实验ID用于状态识别

第四步：超参数搜索

配置要点：

searcher:
  name: adaptive_asha
  metric: test_loss
  smaller_is_better: true
  max_experiments: 50
  max_time: 20

代码适配：

获取超参数：

hparams = det.get_hyperparameters()

应用超参数：

optimizer = optim.SGD(
    model.parameters(),
    lr=hparams["learning_rate"],
    momentum=hparams["momentum"]
)

报告epoch指标：

core_context.train.report_validation_metrics(
    steps_completed=epoch,
    metrics={"test_loss": test_loss, "epochs": epoch}
)

第五步：分布式训练

关键配置：

entrypoint: >-
  python3 -m determined.launch.torch_distributed
  python3 model_def_distributed.py
  
resources:
  slots_per_trial: 4

代码修改：

分布式初始化：

torch.distributed.init_process_group(
    backend="nccl",
    init_method="env://"
)
distributed = det.core.DistributedContext.from_torch_distributed()

设备设置：

device = torch.device(f"cuda:{local_rank}" if use_cuda else "cpu")

模型包装：

model = torch.nn.parallel.DistributedDataParallel(
    model,
    device_ids=[local_rank],
    output_device=local_rank
)

常见问题解决

指标不显示：确保正确调用了report方法，并且steps_completed连续递增
检查点恢复失败：验证experiment_id匹配和模型状态完整性
分布式训练同步问题：检查进程组初始化和设备分配

性能优化建议

合理设置检查点频率
分布式训练时优化batch size与GPU数量比例
超参数搜索时合理设置max_experiments和max_time

总结

通过本文的步骤式指导，开发者可以逐步将现有训练代码迁移到 Determined 平台，并利用 Core API 的强大功能实现从基础训练到高级分布式训练的全流程管理。Core API 的设计既保留了原有代码的灵活性，又提供了平台集成的便利性，是深度学习工程化实践的有力工具。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考