MAHAKIL方法简单实验

MAHAKIL方法复现

数据集 论文中提到的数据集 我选择了其中一类
在这里插入图片描述
使用到的特征
在这里插入图片描述
使用t-SNE聚类将高维数据降低到二维查看原来的数据分布和添加新样本后的数据分布效果图
下面的图 左边是原来样本的分布,右边是添加新样本后的分布,紫色代表负例,黄色代表正例,需要生成的是黄色的数据

样本平衡比例为0.3时 :
在这里插入图片描述
样本平衡比例为0.4时 :
在这里插入图片描述
样本平衡比例为0.5时 :
在这里插入图片描述
使用了五种分类算法测试效果
将数据集按照2/3作为训练集,1/3作为测试集,其中2/3又使用交叉验证法,nfold取10,test_size=0.1。一共做了五次实验取结果的平均

初始的数据只做了标准化处理
数据不平衡时的测试结果 一共1163个数据,77个正例

使用了MAHAKIL生成新的正例 (取平衡比为0.5)一共 2162个数据 1079个正例

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值