Aqueduct 开源项目安装与配置指南-优快云博客

Aqueduct 开源项目安装与配置指南

aqueduct Aqueduct is no longer being maintained. Aqueduct allows you to run LLM and ML workloads on any cloud infrastructure. 项目地址: https://gitcode.com/gh_mirrors/aque/aqueduct

1. 项目基础介绍

Aqueduct 是一个开源的 MLOps（Machine Learning Operations，机器学习运维）框架，它允许用户使用纯 Python 代码定义和部署机器学习和大型语言模型（LLM）工作负载到任何云基础设施上。通过 Aqueduct，用户可以获得对其模型和预测的执行和性能的可见性。

该项目主要使用的编程语言包括 Python、Go 和 TypeScript。

2. 关键技术和框架

Python native API：允许用户在常规 Python 代码中定义 ML 任务。
云基础设施兼容性：可以与 Kubernetes、Spark、Lambda 等云基础设施无缝集成。
工作流管理：提供了一种叫做工作流的核心抽象，由一系列被操作符转换的工件（数据）组成。
安全性：完全开源，在用户的云和基础设施上运行，确保数据和代码的安全性。

3. 安装和配置准备工作

在开始安装 Aqueduct 之前，请确保您的环境中已安装以下依赖：

Python 3.x
Docker
Kubernetes（如果需要在 Kubernetes 上运行）

安装步骤

步骤 1：安装 Aqueduct CLI

首先，您需要使用 pip 安装 Aqueduct 的命令行工具：

pip3 install aqueduct-ml

步骤 2：启动 Aqueduct 服务

安装完成后，您可以在本地启动 Aqueduct 服务：

aqueduct start

步骤 3：配置云基础设施

接下来，您需要配置 Aqueduct 以连接到您的云基础设施。这通常涉及到在 Aqueduct 配置文件中设置相关的认证信息和资源参数。配置细节取决于您选择的云提供商和具体的服务。

步骤 4：定义和部署工作流

在 Aqueduct 中定义工作流通常涉及编写 Python 脚本来描述数据流和计算任务。以下是一个简单的示例：

from aqueduct import LLMOp, Op

# 使用现有的大型语言模型
vicuna = LLMOp('vicuna_7b', engine='eks-us-east-2')

# 获取特征
features = vicuna(raw_logs, {"prompt": "Turn this log entry into a CSV: {text}"})

# 定义一个在 Kubernetes 上运行的训练操作
@Op(engine='kubernetes', resources={'gpu_resource_name': 'nvidia.com/gpu'})
def train(featurized_logs):
    return model.train(features)

# 训练模型
train(features)

在定义了工作流之后，您可以使用 Aqueduct CLI 将工作流部署到云。