文章提出了一种填补缺失数据的算法—GAIN。生成器G观测一些真实数据,并用真实数据预测确实数据,输出完整的数据;判别器D试图去判断完整的数据中,哪些是观测到的真实值,哪些是填补的值。给D提供一些额外的提示信息,保证G可以学习期望的分布。提示向量向D透露了原始数据的部分信息。在多个数据集上测试了算法,算法效果较好。
一.引言
1.缺失数据可以分成三类:
MCAR:完全随机缺失,数据的缺失不依赖于任何不完全变量和完全变量。
MAR:随机缺失,数据的缺失不是完全随机的,依赖于其他完全变量。
MNAR:完全非随机缺失,数据的缺失不依俩于不完全变量自身。
文章数据是基于MCAR的。
2.比较先进的填补方法:MICE、MissForest、matrix completion、Expectation Maximization、DAE 、GAN等。
但是现有的方法存在各种缺陷。(Garc´ıa-Laencina et al., 2010)的方法加设了一个分布,但数据类型是混合型、连续变量时不适用。(Vincent et al., 2008)的DAE算法,实践效果好,但训练过程需要完整数据。(Gondara &Wang,2017)的DAE算法不需要完整数据,但它只能利用观察到的部分去学习数据的表示。
论文提出了GAIN算法,它是GAN算法的推广。核心就是对抗,生成器要使判别器的误判率最大,判别器要使分类误差最小。
二、问题描述
— d维空间
— 数据向量(取值于
的随机向量)
GAIN算法:一种基于对抗网络的缺失数据填充方法

最低0.47元/天 解锁文章
2749

被折叠的 条评论
为什么被折叠?



