超参数是指在机器学习中在算法训练开始前预设的一些参数值,这些参数值一般无法通过算法本身学会更改,比如KNN算法中的Manhattan distance(曼哈顿距离)、Euclidean distance(欧式距离),K-Means算法中的簇数N,深度学习的学习率lr;与其相对的就是那些在算法中可以通过训练学到的参数,比如权值权值w、偏置b等。超参数的确定可以通过交叉验证的方法。
数据集可以分为训练集、验证集、测试集。1)训练集是用于学习的样本,用于确定机器学习或者深度学习中的各项系数,一般占所有样本的50%—60%或者更多;2)验证集是用来调整分类器参数的样本集,在训练过程中,网络模型会立刻在验证集上进行验证,我们会同步观察到这个验证集数据在模型上的表现如何,损失函数是否会下降,准确率是否在提高一般占所有样本的25—20%左右;3)测试集用于测试模型的能力(主要是分类能力),一般占20%或更少。
如图所示为例可将训练集分成5份分别作为验证集,构成如表所示的交叉验证。
