利用 scikit-learn 探索机器学习分类器
1. 感知机算法的局限性
感知机算法在处理并非完全线性可分的数据集时,永远无法收敛。这是因为在每个训练周期中,总会存在至少一个分类错误的训练示例,导致权重不断更新。即便调整学习率和增加训练周期数,感知机在这类数据集上也无法收敛。因此,在实际应用中,通常不建议使用感知机算法。
2. 逻辑回归简介
为了更有效地进行线性和二元分类问题的处理,我们引入逻辑回归算法。尽管它名为“回归”,但实际上是一种分类模型。逻辑回归易于实现,在处理线性可分的类别时表现出色,是工业界广泛使用的分类算法之一。
2.1 逻辑回归与条件概率
为了理解逻辑回归作为二元分类概率模型的原理,我们先引入“赔率”的概念。赔率可表示为 $\frac{p}{1 - p}$,其中 $p$ 代表正事件的概率。这里的“正事件”并非一定意味着“好”的事件,而是我们想要预测的事件,例如患者患有某种疾病的概率,可将其视为类别标签 $y = 1$。
在此基础上,我们定义对数几率函数(logit 函数),它是赔率的自然对数:
$logit(p) = log\frac{p}{1 - p}$
对数几率函数将输入值从 0 到 1 的范围转换为整个实数范围,从而可以表达特征值与对数几率之间的线性关系:
$logit(p(y = 1|x)) = w_0x_0 + w_1x_1 + \cdots + w_mx_m = \sum_{i = 0}^{m}w_ix_i = w^Tx$
这里,$p(y = 1|x)$ 是给定特征 $x$ 时,特定示例属于类别 1 的条件概率。
超级会员免费看
订阅专栏 解锁全文
2091

被折叠的 条评论
为什么被折叠?



