混淆矩阵
准确率
召回率 精确率
召回率:在所有正样本中,被预测为正样本的个数
精确率:在预测为正样本中,真正的正样本
F1-score
G-mean(样本不平衡之下的评价指标)
ROC-AUC
ROC空间将伪阳性率(FPR)定义为 X 轴,真阳性率(TPR)定义为 Y 轴
PR-AUC
ROC 和 PR的区别
偏差 方差
偏差:算法在训练集上的错误率
偏差提现的是模型的偏离程度
方差:算法在开发集上的错误率 - 算法在训练集上的错误率
方差提现的是模型的离散程度,也就是稳定性
偏差的继续分解
偏差 = ‘不可避免偏差’(即最优错误率) + ‘不可避免偏差’
减少可避免偏差的技术
- 加大模型规模
- 根据误差分析结果修改输入特征
- 减少或者去除正则化(L1正则化,L2正则化,dropout)
- 修改模型构架
减少方差的技术
- 添加更多的数据
- 加入正则化
- 加入提前终止
- 通过特征选择减少输入特征的数量和种类
- 减少模型规模