过拟合(Overfitting)
定义:过拟合是指模型在训练数据上表现非常好,但在新数据或测试数据上表现较差。模型对训练数据的噪声和细节过于敏感,以至于未能学习到数据的普遍模
特征:
- 训练精度很高:模型在训练数据上的表现非常好。
- 验证精度较低:模型在未见过的数据上的表现不佳,验证误差高于训练误差。
- 学习曲线:训练误差持续降低,而验证误差在某个点后开始上升。
解决方法:
- 增加数据:更多的数据可以帮助模型更好地学习到数据的普遍模式。
- 简化模型:减少模型的复杂性,例如减少神经网络的层数或每层的神经元数量。
- 正则化:使用正则化技术,如 L1 或 L2 正则化,以惩罚模型的复杂性。
- 早停:在训练过程中监控验证集的性能,当性能不再提升时停止训练。
- 交叉验证:使用交叉验证来评估模型的泛化能力。
- Dropout:在训练过程中随机丢弃一部分神经元,防止模型对训练数据过于依赖。
欠拟合(Underfitting)
定义:欠拟合是指模型在训练数据和测试数据上都表现不佳。模型太简单,无法捕捉到数据中的重要模式和特征。
特征:
- 训练精度较低:模型在训练数据上的表现也不好。
- 验证精度也较低:模型在未见过的数据上的表现同样不好。
- 学习曲线:训练误差和验证误差都较高,且两者的差距不大。
解决方法:
- 增加模型复杂性:使用更复杂的模型,例如增加神经网络的层数或神经元数量。
- 特征工程:增加更多的特征或使用特征选择技术来提供更多的信息给模型。
- 减少正则化:如果使用了过强的正则化,尝试减少正则化强度。
- 增加训练时间:增加训练次数或训练轮数,以便模型有更多的机会学习数据的模式。
- 使用更多数据:更多的数据可以帮助模型更好地学习到数据的模式,特别是在模型复杂性增加的情况下。
精准率(Precision)、召回率(Recall) 和 F1 分数(F1 Score) 是评估分类模型性能的重要指标。它们提供了模型在分类任务中的表现,特别是在类别不平衡的情况下。下面是这三个指标的详细解释、计算方法和如何解读它们的结果。
精准率(Precision)
定义:精准率是正确预测为正类的样本数占所有预测为正类样本数的比例。它衡量的是模型在预测为正类时的准确程度。
- 真阳性(True Positives):正确预测为正类的样本数。
- 假阳性(False Positives):被错误预测为正类的样本数。
解读:高精准率表示当模型预测为正类时,预测的准确性较高。这在假阳性代价较高的情况下尤其重要。
召回率(Recall)
定义:召回率是正确预测为正类的样本数占所有实际为正类的样本数的比例。它衡量的是模型捕获实际正类样本的能力。
- 假阴性(False Negatives):实际为正类但被错误预测为负类的样本数。
解读:高召回率表示模型能捕获到大多数实际正类样本。这在假阴性代价较高的情况下尤为重要。
F1 分数(F1 Score)
定义:F1 分数是精准率和召回率的调和均值。它综合了精准率和召回率,是平衡两者的一个指标。
解读:高 F1 分数表示模型在精准率和召回率之间有良好的平衡。当你需要同时考虑假阳性和假阴性的成本时,F1 分数非常有用。
代价曲线(Cost Curve) 是在机器学习中用于评估分类模型性能的一种工具,特别是在处理具有不同代价(成本)或不平衡数据集时。代价曲线主要包括 代价-敏感学习曲线(Cost-Sensitive Learning Curve) 和 代价-效用曲线(Cost-Utility Curve)。这些曲线帮助我们理解不同的分类阈值对模型性能的影响,尤其是在处理不同的假阳性(False Positive, FP)和假阴性(False Negative, FN)代价时。
代价曲线的概念
-
代价-敏感学习曲线:当模型的预测结果涉及到不同的代价时,我们可以使用代价-敏感学习曲线来评估模型的性能。通过调整分类阈值,我们可以查看不同阈值下的总代价。
-
代价-效用曲线:这是一种可视化工具,用于展示不同分类阈值下的代价和效用的权衡。代价可以是经济成本、时间成本等,而效用则是模型的实际收益或效益。
代价曲线的绘制
绘制代价曲线的一般步骤包括:
-
定义代价矩阵:确定假阳性和假阴性的代价。假阳性代价是将负样本错误预测为正样本的代价,而假阴性代价是将正样本错误预测为负样本的代价。
-
计算不同阈值下的代价:
- 根据模型的预测概率,选择不同的分类阈值。
- 对每个阈值,计算假阳性和假阴性,并结合代价矩阵计算总代价。
-
绘制代价曲线:将不同阈值下的代价绘制成曲线,以可视化代价与分类阈值之间的关系。
2012年国赛A题第一问:分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信
问题问是否有显著性差异,那一组结果更可信,可以想到显著性检验方法。同时,有两个组别,可以用双总体T检验方法,或者是F检验和c2检验等等。
然后是那一组更可信,问题就是问谁的评分更稳定,及方差更小。通过数据可以简单的算出结果。
1983

被折叠的 条评论
为什么被折叠?



