不平衡分类中的阈值调整与概率校准
1. 精确率 - 召回率曲线的最优阈值
在不平衡分类问题中,将概率转换为明确的类别标签时,选择合适的阈值至关重要。精确率 - 召回率曲线聚焦于分类器在正类(少数类)上的性能。
1.1 精确率和召回率的定义
- 精确率 :真阳性数量除以真阳性和假阳性数量之和,描述了模型预测正类的能力。
- 召回率 :真阳性数量除以真阳性和假阴性数量之和,等同于灵敏度。
1.2 计算精确率 - 召回率曲线
可以使用 precision_recall_curve() 函数计算精确率 - 召回率曲线,以下是完整示例代码:
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import precision_recall_curve
from matplotlib import pyplot
# 生成数据集
X, y = make_classification(n_samples=10000, n_features=2, n_redundant=0,
超级会员免费看
订阅专栏 解锁全文
64

被折叠的 条评论
为什么被折叠?



