线性模型与聚类分析:逻辑回归与K-means算法详解
在机器学习领域,线性模型和聚类分析是两个重要的研究方向。逻辑回归作为一种常用的线性模型,在分类问题中有着广泛的应用;而K-means算法则是聚类分析中的经典方法,用于将数据点划分为不同的簇。本文将详细介绍逻辑回归中的敏感性、ROC曲线等概念,以及K-means算法的使用、优化和评估方法。
逻辑回归中的敏感性与ROC曲线
敏感性(Sensitivity)
敏感性是混淆矩阵的一个重要数学函数,它表示在患有某种疾病(如糖尿病)的人群中,被正确诊断为患病的比例。数学上,敏感性是真正例(TP)与实际患病总人数(TP + FN)的比值,也被称为真正例率(TPR)。
可视化视角
通过直方图可以直观地展示患有糖尿病和未患有糖尿病的两类人群的分布情况。在逻辑回归中,默认的阈值设置为0.5,这个阈值会导致出现假阴性(FN)和假阳性(FP)的情况。
计算TPR
在scikit-learn中,可以使用 roc_curve 函数计算敏感性或TPR。以下是示例代码:
from sklearn.metrics import roc_curve
fpr, tpr, ths = roc_curve(y_test, y_pred_proba[:,1])
这里, roc_curve 函数返回三个数组:TPR数组( tpr )、FPR数组( fpr
超级会员免费看
订阅专栏 解锁全文
1024

被折叠的 条评论
为什么被折叠?



