模型的评价与验证
1.什么是机器学习的过拟合?
所谓过拟合,就是指模型在训练集上的效果很好,在测试集上的预测效果很差。
2.如何避免过拟合问题?
1)重采样bootstrap;
2)L1,L2正则化;
3)决策树的剪枝操作;
4) 交叉验证。
3.什么是机器学习的欠拟合?
所谓欠拟合就是模型复杂度低或者数据量太小,对数据的拟合程度不高,因此模型在训练集上的效果不好。
4.如何避免欠拟合问题?
1)增加样本的数量;
2)增加样本特征的个数;
3)可以进行特征维度的扩展。
5.什么是交叉验证?交叉验证的作用是什么?
交叉验证,就是将原始数据集(dataset)划分为两部分,一部分为训练集用来训练模型,另外一部分用来测试模型效果。
作用:
1)交叉验证是用来评估模型在新的数据集上的预测效果,也可以在一定程度上减少模型的过拟合。
2)还可以从有限的数据中获取尽可能多的有效信息。
交叉验证主要有以下方法:留出法,k折交叉验证,留一法和BootStrap方法。其中,留出法简单地将原始数据集划分为训练集、验证集和测试集三个部分。
6.如何避免数据不平衡?
1)重采样(bootstrap)–>上采样和下采样
2) 数据合成–>利用已有样本生成更多样本
3) 加权
4) 看成:分类或者异常检测的问题
应用场景:
1)正负样本都非常之少–>数据合成的方式
2)负样本足够多,正样本非常之少且比例极其悬殊–>分类方法
3)正负样本都足够多且比例不是特别悬殊–>采样或加权的方法
7.在数据处理过程中,对于缺少特征的样本如何进行处理?
根据样本缺失的实际情况,我们一般应用:
1)均值,中值,最大最小值等来填充数据;
2)根据经验值补全数据;
3)通过相关计算得到缺失值;
4)样本数量足够,则可以直接删除有缺失值的样本。
8.连续性数据转换为离散数据有什么优点?
1)离散特征的增加和减少都很容易,易于模型的快速迭代;
2)离散化后的特征对异常数据具有很强的鲁棒性;
3)离散化后可以进行特征交叉,相当于引入非线性,提升模型的表达能力;
4)降低模型过拟合的风险。
9.准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F值(F-Measure)和ROC曲线的理解?
1)下表:1代表正类,0代表负类。
| 预测 | ||||
| 1 | 0 | 合计 | ||
| 实际 | 1 | True postive(真下类,TP) | False Negative(假负类,FN) | Actual Postive |
| 0 | Flase Postive(假正负,FP) | True Negative(真负类,TN) | Actual Negative | |
| 合计 | Predicted Postive | Predicted Negative | TP+FN+FP+TN | |
准确率(正确率)=所有预测正确的样本/总样本=(TP+TN)/(TP+FN+FP+TN)
精确率=将正类预测为正类/所有预测为正类=TP/(TP+FP)
召回率=将正类预测为正类/所有真正的正类=TP/(FP+FN)
F值=精确率召回率2/(精确率+召回率)
注:F值即为精确率和召回率的调和平均值。
ROC曲线:接收者操作特征(Receiver operating characteristic),ROC曲线上每个点反映着对同一信号刺激的感受性。
纵轴:真正类率(True Postive rate,TPR),也叫真阳性率.TPR=TP / (TP + FN),代表分类器预测为正类中实际为正实例占所有正实例的比例;
横纵:假正类率(False Positive),也叫伪阳性率。FRP=FP/(FP+TN),代表分类器预测为正类中实际为负实例占所有负实例的比例。
理想目标:TPR=1,FPR=0,即图中(0,1)点,此时ROC曲线越靠拢(0,1)点越偏离45度对角线越好。
1464

被折叠的 条评论
为什么被折叠?



