前面刚学习了一些基本的分类算法,接触到了非均衡分类问题。常见的精度score指标,不一定能很好的评价模型的好坏。
常用模型评价方法,主要包括交叉验证、网格搜索
非均衡分类有两种情形:
情形一:正例和反例数量相差非常大。
比如,分析信用卡信息集里面的正常样本和诈骗样本。正常样本固然比诈骗样本要多的多了。
情形二:分类正确/错误的代价不同。
比如,分析病人的体检数据,有病诊断为无病的后果要比无病诊断为有病的后果严重的多。
非均衡分类时,常用模型评价方式为:混淆矩阵、ROC曲线
前面刚学习了一些基本的分类算法,接触到了非均衡分类问题。常见的精度score指标,不一定能很好的评价模型的好坏。
常用模型评价方法,主要包括交叉验证、网格搜索
非均衡分类有两种情形:
情形一:正例和反例数量相差非常大。
比如,分析信用卡信息集里面的正常样本和诈骗样本。正常样本固然比诈骗样本要多的多了。
情形二:分类正确/错误的代价不同。
比如,分析病人的体检数据,有病诊断为无病的后果要比无病诊断为有病的后果严重的多。
非均衡分类时,常用模型评价方式为:混淆矩阵、ROC曲线