分类与数值优化:从概率到梯度下降
1. 分类问题中的概率与决策
在分类问题中,我们常常使用逻辑回归模型来预测概率。例如,对于树木是否倒下的分类问题,模型预测直径为 6 的树木有 0.87 的概率为站立状态,0.13 的概率为倒下状态。当我们已经拟合了一个单特征的模型后,可能会考虑加入其他特征(如风暴强度)来改进模型,这可以通过添加特征到设计矩阵 X 并重新拟合模型来实现多逻辑回归。
由于逻辑回归输出的是概率值(范围在 0 到 1 之间),为了进行分类,我们需要将概率转换为类别。这就需要选择一个阈值来制定决策规则。
1.1 决策规则与阈值选择
sklearn 逻辑回归模型的 predict 函数实现了基本的决策规则:如果预测概率 p > 0.5,则预测为 1;否则预测为 0。但我们也可以考虑更通用的决策规则,对于某个阈值 τ,如果模型预测概率 p > τ,则预测为 1;否则预测为 0。默认情况下,sklearn 设置 τ = 0.5。
为了选择合适的 τ 值,我们可以根据目标来进行。例如,如果我们希望最大化准确率,准确率是正确预测的比例。可以通过以下代码计算不同阈值下的准确率:
import numpy as np
def threshold_predict(model, X, threshold):
return np.where(model.predict_proba(X)[:, 1] > threshold, 1.0, 0.0)
def accuracy(threshold, X, y):
return np.me
分类与梯度下降优化详解
超级会员免费看
订阅专栏 解锁全文
1434

被折叠的 条评论
为什么被折叠?



