MAHAKIL方法复现
数据集 论文中提到的数据集 我选择了其中一类
使用到的特征
使用t-SNE聚类将高维数据降低到二维查看原来的数据分布和添加新样本后的数据分布效果图
下面的图 左边是原来样本的分布,右边是添加新样本后的分布,紫色代表负例,黄色代表正例,需要生成的是黄色的数据
样本平衡比例为0.3时 :
样本平衡比例为0.4时 :
样本平衡比例为0.5时 :
使用了五种分类算法测试效果
将数据集按照2/3作为训练集,1/3作为测试集,其中2/3又使用交叉验证法,nfold取10,test_size=0.1。一共做了五次实验取结果的平均
初始的数据只做了标准化处理
数据不平衡时的测试结果 一共1163个数据,77个正例
使用了MAHAKIL生成新的正例 (取平衡比为0.5)一共 2162个数据 1079个正例