逻辑回归分类的深入探讨
在机器学习领域,逻辑回归是一种强大的分类工具。它能够在不同的场景中发挥重要作用,但同时也面临着一些挑战。本文将深入探讨逻辑回归分类中的关键问题,包括平衡训练类、多类分类、层次分类以及分区函数和多项式回归等方面。
逻辑回归分类基础
逻辑回归分类器在某些问题上表现出色,例如在体重 - 身高空间中区分男性和女性。通过图 9.17 可以看到,红色区域包含 229 名女性和仅 63 名男性,而蓝色区域包含 223 名男性和 65 名女性。逻辑回归的损失函数具有凸性,这意味着我们可以使用梯度下降法找到最适合训练示例的参数 w,从而为二元分类提供自然的解决方案。
逻辑分类中的问题
在构建有效的分类器时,有几个细微之处需要考虑,这些问题不仅与逻辑回归相关,也适用于其他机器学习方法。
平衡训练类
以判断一个人是否为恐怖分子的分类问题为例,这个问题对各国执法机构都至关重要。然而,由于普通人群中恐怖分子数量极少,这个问题变得非常困难。在美国,大约 3 亿人口中可能只有 300 名左右真正的恐怖分子,即每百万人中只有一人是活跃的恐怖分子。
这种不平衡会带来两个主要后果:
- 大量误报 :即使分类器的准确率达到前所未有的 99.999%,仍会将 3000 名无辜人员误分类为恐怖分子,是实际抓获恐怖分子数量的 10 倍。
- 训练样本不足 :我们可能有成千上万的无辜人员作为正例(类别 0),但只有几十名已知恐怖分子作为负例(类别 1)进行训练。在这种情况下,逻辑分类器可能会倾向于将所有人都判定为非恐怖分
超级会员免费看
订阅专栏 解锁全文
1021

被折叠的 条评论
为什么被折叠?



