Rust-based Data Loader datago 的最佳实践教程-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00478/article/details/148200628

Rust-based Data Loader datago 的最佳实践教程

datago A Rust-based data loader which can be used from Python. Processing data per sample at GB/s speeds, covering various use cases eventually. 项目地址: https://gitcode.com/gh_mirrors/dat/datago

1. 项目介绍

datago 是一个基于 Rust 语言编写的数据加载器，它可以被 Python 程序调用。该项目专注于以极高的速度处理每个样本的数据，支持 GB/s 级别的数据处理速度，适用于多种使用场景。目前主要针对图像数据，但也可以轻松扩展到更通用的数据类型。datago 在 Python 全局解释器锁（GIL）之外处理每个样本的 IO、反序列化（jpg 和 png 解压缩）、一些可选的视觉处理（如不同图像负载的对齐）以及可选的序列化。

2. 项目快速启动

在开始之前，确保你已经安装了 Rust 工具链。

安装 datago

你可以使用 pip 命令来安装 datago：

pip install datago

使用 Python 代码从 datago 获取数据

以下是一个简单的 Python 代码示例，展示如何从 datago 获取数据：

from datago import DatagoIterDataset

# 初始化配置
client_config = {}

# 获取 DatagoIterDataset
datago_dataset = DatagoIterDataset(client_config, return_python_types=True)

在上面的代码中，return_python_types=True 确保图像将以 PIL.Image 类型返回。

使用 datago 客户端

以下是一个使用 datago 客户端从 Python 获取样本的示例：

from datago import DatagoClient, initialize_logging
import os
import json

# 初始化日志
initialize_logging()

# 配置信息
config = {
    "source_type": "file",
    "source_config": {
        "root_path": "myPath",
        "random_order": False
    },
    "limit": 200,
    "rank": 0,
    "world_size": 1,
    "samples_buffer_size": 32
}

# 创建客户端
client = DatagoClient(json.dumps(config))

# 获取样本
for _ in range(10):
    sample = client.get_sample()

这段代码假设 datago 服务器正在运行，并且可以从指定的根路径提供文件。