两点废话
黑喂狗!这个下篇主要是进行,模型的改良,和更多的特征工程、如果你没有看过上篇,你可以点击在这里:
机器(深度学习)新手第一次在Kaggle上被虐的经历(经验)——泰坦尼克号生存预测:Titanic: Machine Learning from Disaster——(上)
温馨提示:按顺序看更可口哦!
一.划分交叉集
第一个模型已经建立了,但是有一个局限,就是kaggle上每天提交的次数是有限制的。所以我们现在就需要从从训练集里抽出一些数据来建立训练集。达叔的课程说过这方面的事情,我这里呢选择,拿出20%来进行交叉验证。
X_cross=X_train[712:891]
X_train=X_train[0:712]
Y_cross=Y_train[712:891]
Y_train=Y_train[0:712]
X_cross.shape,X_train.shape,Y_cross.shape,Y_train.shape
还是要确定维度,这个习惯特别的重要!
然后我们现在用新的训练集去进行训练模型:
正确率下降,正常,毕竟训练集少了20%,然后看下交叉集准确率:
#交叉集准确率
acc_cross = sess.run(accuracy,feed_dict={X: X_cross,Y: Y_cross})
acc_cross
这个挺意外啊,准确率居然那么高。
那就看看这个里面的预测错误的例子吧。
#所有预测的正确或错误列表
bed_case = sess.r