一、误差与数据集 训练误差: 模型在训练集上的误差 泛化误差: 模型在新数据(测试集)上的误差。 训练数据集: 用来完成模型训练 验证数据集: 用来评估模型好坏(切忌和训练集出现数据重复,否则会导致模型性能虚高)测试数据集:只用一次,用来评估最终模型的泛化性能,不可使用测试集调整模型超参数。 K-fold:K折交叉验证 该算法常用于数据不够多的场景,具体流程如下: 混合并打乱数据集 将打乱后的数据分为 K K K块 遍历 K K K个数据块: 将第 i i i块数据作为验证集,其余作为训练集 报告 K K