0- 前言
Gartner 预测(Fake It to Make It: Companies Beef Up AI Models with Synthetic Data):“到 2024 年,60% 的数据用于开发 AI 和分析项目将综合产生”, Gartner 指出,许多公司已经开始使用合成数据来训练他们的AI模型填补真实数据的不足,同时应对数据稀缺和隐私问题;2023年11 月发表在《自然》杂志上的研究也表明使用合成数据替代真实医疗保健数据的有效性。
在本文中,我们从合成数据角度入手,了解其中的一个具体领域:表格数据合成 与相关组件。
1- 何为合成数据?何为表格合成数据?
1.1 合成数据(Synthetic Data)
合成数据(Synthetic Data)是通过算法、统计模型或生成人工智生成的数据,而非真实的观测数据。 为了生成一组合成数据,需要通过算法分析原始数据从而得到原始数据中的特征分布、特征之间的关联以及特征规律等要素,再进行生成。总的来说,合成数据具有以下优势:
-
可控性强:可根据