SDGym开源项目教程-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00953/article/details/142806986

SDGym开源项目教程

SDGym 项目地址: https://gitcode.com/gh_mirrors/sdg/SDGym

1. 项目介绍

SDGym（Synthetic Data Gym）是一个用于评估和比较合成数据生成方法的基准测试框架。该项目由DataCebo开发，旨在帮助研究人员和开发者衡量不同合成数据生成技术的性能和内存使用情况。SDGym集成了Synthetic Data Vault（SDV）生态系统，支持多种合成器、数据集和评估指标，用户也可以自定义流程以包含自己的工作。

主要功能

多种合成器支持：包括GaussianCopulaSynthesizer、CTGANSynthesizer等。
公开数据集：提供多种公开数据集供测试。
性能评估：衡量合成数据的性能、内存使用和质量。
自定义扩展：支持自定义合成器和数据集。

2. 项目快速启动

安装SDGym

推荐使用虚拟环境进行安装，以避免与其他软件冲突。

# 使用pip安装
pip install sdgym

# 使用conda安装
conda install -c pytorch -c conda-forge sdgym

快速示例

以下是一个简单的示例，展示如何使用SDGym对单表数据进行基准测试。

import sdgym

# 选择SDV库中的合成器
sdv_synthesizers = ['GaussianCopulaSynthesizer', 'CTGANSynthesizer']

# 选择SDGym中的基础合成器作为基线
baseline_synthesizers = ['UniformSynthesizer']

# 进行基准测试
results = sdgym.benchmark_single_table(
    synthesizers=(sdv_synthesizers + baseline_synthesizers)
)

# 输出结果
print(results)