表格数据增强:从库选择到数据可视化
1. 表格数据增强库
表格数据增强是一种使用合成数据扩充表格数据集的方法,涉及为表格数据集添加通过派生计算得到的特征列。在处理过程中,我们会花费大量时间用 Python 代码和奇特的图表来可视化现实世界的表格数据集。
目前有一些开源的表格数据增强库,可在 GitHub 上找到:
- DeltaPy :专注于金融应用,如时间序列股票预测的数据生成和合成。它适用于广泛的数据集。GitHub 链接:https://github.com/firmai/deltapy ,相关学术论文为 2020 年 Derek Snow 在 The Alan Turing Institute 发表的“DeltaPy: A Framework for Tabular Data Augmentation in Python”。
- Synthetic Data Vault (SDV) :通过从单表、多表和时间序列数据生成合成数据来增强表格数据。2020 年,Kalyan Veeramachaneni、Neha Patki 和 Saman Amarsinghe 开发了商业版本 Datacebo。GitHub 链接:https://github.com/sdv-dev/SDV 。
- 表格生成对抗网络 (GAN) :将成功生成逼真图像的算法应用于表格数据增强。相关学术论文是 2020 年 Insaf Ashrapov 在 Cornell University 的 Arxiv 上发表的“Tabular GANs for uneven distribution
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



