- 数据挖掘第四周周报
- 1、本周工作
- 本周主要是实现了神经神经网络在数据集上的初步运用,在经过主观降维的数据集处理以后,对测试集进行了分类,并得到了结果。如图所示:
得到了不是0.5的结果,说明神经网络的作用还是有的,但是在经过对于迭代次数的改变和训练集的改变以后,还是没有能优化到一个更好的结果,于是乎我在考虑是不是应该回过头对特征工程进行进一步的处理,
这一周的后几天我都是在处理数据集的特征,https://zhuanlan.zhihu.com/p/43225794.在知乎和谷歌的帮助下,我对很多的降维方法进行尝试,有什么低方差过滤、缺省值删除、高相关过滤、PCA降维等方法,
trainData[numerical_fea] = trainData[numerical_fea].fillna(trainData[numerical_fea].median())
testAData[numerical_fea] = testAData[numerical_fea].fillna(testAData[numerical_fea].median())
mm = MinMaxScaler()
data = mm.fit_transform(data)
pca = PCA(n_components = 10,copy=True)
data = pca.fit_transform(data)
在结