环境:ubuntu、anaconda、python
背景:
实验室的老师写论文需要对照实验,进行数据分类,需要将下面的方法在这个数据集上进行实验。
多层前馈神经网络(MFFNN)、概率神经网络(PNN)、径向基神经网络、模糊神经网络、朴素贝叶斯、C4.5、随机森林、bagging、KNN、EasyEnsembleClassifier
数据集:
数据是这样的(如下图),每个xls文件是一个数据集,A列表示公司的代号,B之后的列是真实公司的特征,(老师没告诉具体是啥)。
要求:
需要将每一年的15个文件合并(按行横着合并)。数据里面有缺失的数据,需要进行填充处理。每年的标签1.xls文件对应的A1-A15的标签,值有(0, 1, 2)三个, 由于我做的实验不需要第3类,所以要删除标签第三类对应的数据。然后进行实验。
涉及到的技术:
sklearn、imblearn、pandas、os
完整代码:
https://github.com/dlagez/classification/blob/master/data_process/data_process.py
数据文件截图:


该博客详细介绍了如何在Ubuntu环境下使用Python和Anaconda进行数据预处理。首先,通过遍历指定文件夹,合并xls文件并设置自定义列名。接着,处理合并后的数据集中的缺失值,采用均值填充方法。然后,将标签值添加到数据集中,并删除标签为2的样本。最后,将数据分为训练集和测试集,为后续的多类分类任务(如MFFNN、PNN等)做好准备。涉及的库包括sklearn、imblearn、pandas和os。
最低0.47元/天 解锁文章
604





