当创建好模型并且用来训练之后,如何评估模型的好坏,准确度又如何呢?
三种常用方法:
1、使用自动验证方法
在 fit 函数中增加一个validation_split参数,该参数用来进行验证效果
该参数可以自由设置,一般设置为20%或者30%。也就是测试集占总数据集的20%或者30%的数据用来进行验证,其余用来进行训练
2、人工设定
这里使用到了scikit-learn机器学习库中的train_test_split()函数,将数据集分为训练集和测试集,具体如下:
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.3,random_state=seed)
3、使用交叉验证
这里用的专业术语为k_fold cross validation,同样是scikit-learn中的函数
这个过程就是将数据进行分类,分为n个fold(层),然后用一个循环,不停地创建模型,编译,拟合。直到n个层全部跑完结束
代码如下:
kfold = StratifiedKFold(n_splits=10, shuffle=True, random_state=seed)
cvscores = []
for train, test in kfold.split(X, Y):
# create model
model = Sequential()
model.add(Dense(12, input_dim=8, activation='relu'))
model.add(Dense(8, activation='relu'))
model.add(Dense(1, activation='sigmoid'))
# Compile model
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
# Fit the model
model.fit(X[train], Y[train], epochs=150, batch_size=10, verbose=0)
# evaluate the model
scores = model.evaluate(X[test], Y[test], verbose=0)
print("%s: %.2f%%" % (model.metrics_names[1], scores[1]*100))
cvscores.append(scores[1] * 100)
print("%.2f%% (+/- %.2f%%)" % (numpy.mean(cvscores), numpy.std(cvscores)))
以上代码将数据集分为kfold,分割参数为10,随机分(shuffle),然后建立一个list(cvscores),将获取到的评估结果保存