数据挖掘面试:不得不学的AUC!
关于作者:Milter,一名机器学习爱好者、NLP从业者、终生学习者,欢迎志同道合的朋友多多交流。https://www.yuque.com/liwenju/kadtqt/nbeiv3
0x00 前言
本文的目的是解答如下三个问题,看文章的你,如果觉得这三个问题很清楚,就不用浪费时间看下去了。如果你觉得能大概回答一下,但是详细说又有点为难,就继续看下去吧。
为什么ROC比PR对不均衡样本更鲁棒?
什么时候选择PR,什么时候选择ROC?
为什么AUC值一定是大于0.5的?
0x01 预备知识
为了上述问题,需要大家对ROC PR曲线有基本的认识,由于不是本文重点,仅给出一些参考资料。
关于绘制roc曲线的具体方法,请参考sklearn的文档。里面有很具体的例子,建议修改里面的数据,自己尝试一下。
https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_curve.html?highlight=roc#sklearn.metrics.roc_curve
https://scikit-learn.org/stable/auto_examples/model_selection/plot_roc.html#sphx-glr-auto-examples-model-selection-plot-roc-py
点开上面的网址后,拉到最下面,你会看到