ClearML Agent 使用教程
1. 项目介绍
ClearML Agent 是一个开源的 MLOps/LLMOps 调度与编排解决方案,支持 Linux、macOS 和 Windows 系统。它旨在简化机器学习实验的执行和管理,特别是在需要自动化执行的情况下。ClearML Agent 可以运行在本地或远程机器上,支持 Docker 执行模式,并且能够自动扩展服务,如自动伸缩器、控制器、优化器和应用程序等。
2. 项目快速启动
安装 ClearML Agent
首先,确保你已经安装了 Python 和 pip。然后,使用以下命令安装 ClearML Agent:
pip install clearml-agent
初始化 ClearML Agent
安装完成后,初始化 ClearML Agent:
clearml-agent init
启动 ClearML Agent
启动 ClearML Agent 的守护进程:
clearml-agent daemon --queue default
克隆并运行实验
在 ClearML UI 中,右键点击实验并选择“克隆”。然后,右键点击新创建的实验并选择“入队”以启动实验。
3. 应用案例和最佳实践
自动化执行实验
ClearML Agent 可以自动执行实验,无需手动干预。通过在 ClearML UI 中克隆实验并入队,ClearML Agent 会自动创建虚拟环境或启动 Docker 容器,安装所需的 Python 包,并执行实验代码。
服务模式
ClearML Agent 的服务模式允许你启动长时间运行的任务,如自动伸缩器、控制器、优化器和应用程序。服务模式可以与 GPU 代理一起运行,支持 CPU 配置。
clearml-agent daemon --services-mode --detached --queue services
调试与监控
ClearML Agent 会将所有 stdout/stderr 日志记录在 ClearML UI 中,便于调试。你还可以在 UI 中手动中止任务,或在代码崩溃时捕获错误并标记实验失败。
4. 典型生态项目
ClearML
ClearML 是一个开源的 MLOps 平台,提供实验跟踪、数据版本控制、模型管理和自动化等功能。ClearML Agent 是 ClearML 平台的一部分,用于实验的自动化执行和调度。
Docker
ClearML Agent 支持 Docker 执行模式,允许你在 Docker 容器中运行实验。这使得实验环境更加隔离和可重复。
PyTorch
对于使用 PyTorch 的项目,ClearML Agent 会根据 CUDA_VERSION 环境变量自动选择合适的 torch 包,确保实验在正确的硬件环境下运行。
通过以上步骤,你可以快速上手并使用 ClearML Agent 进行机器学习实验的自动化执行和管理。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考