分类方法实验、pandas、imblearn、sklearn

该博客详细介绍了如何在Ubuntu环境下使用Python和Anaconda进行数据预处理。首先,通过遍历指定文件夹,合并xls文件并设置自定义列名。接着,处理合并后的数据集中的缺失值,采用均值填充方法。然后,将标签值添加到数据集中,并删除标签为2的样本。最后,将数据分为训练集和测试集,为后续的多类分类任务(如MFFNN、PNN等)做好准备。涉及的库包括sklearn、imblearn、pandas和os。

环境:ubuntu、anaconda、python

背景:

实验室的老师写论文需要对照实验,进行数据分类,需要将下面的方法在这个数据集上进行实验。

多层前馈神经网络(MFFNN)、概率神经网络(PNN)、径向基神经网络、模糊神经网络、朴素贝叶斯、C4.5、随机森林、bagging、KNN、EasyEnsembleClassifier

数据集:

数据是这样的(如下图),每个xls文件是一个数据集,A列表示公司的代号,B之后的列是真实公司的特征,(老师没告诉具体是啥)。

要求:

需要将每一年的15个文件合并(按行横着合并)。数据里面有缺失的数据,需要进行填充处理。每年的标签1.xls文件对应的A1-A15的标签,值有(0, 1, 2)三个, 由于我做的实验不需要第3类,所以要删除标签第三类对应的数据。然后进行实验。

涉及到的技术:

sklearn、imblearn、pandas、os

完整代码:

https://github.com/dlagez/classification/blob/master/data_process/data_process.py

数据文件截图:

在这里插入图片描述

评论 3
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

dlage

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值