逻辑分类中的问题与解决方案
1. 逻辑回归分类器简介
逻辑回归分类器在分类问题中有着重要应用。例如,在体重 - 身高空间中对男性和女性进行分类,逻辑回归分类器能找到最佳的线性分隔线。如图所示,红色区域包含 229 名女性和仅 63 名男性,蓝色区域包含 223 名男性和 65 名女性。逻辑回归的损失函数是凸函数,这意味着可以使用梯度下降法找到最适合训练示例的参数 w,从而为二元分类提供了自然的方法。
2. 构建有效分类器的问题
构建有效分类器存在一些细微差别,这些问题与逻辑回归以及其他机器学习方法相关,主要包括管理不平衡的类别大小、多类别分类以及从独立分类器构建真实概率分布。
2.1 平衡训练类别
以判断一个人是否为恐怖分子的分类问题为例,在一般人群中,恐怖分子的数量极少。在美国,3 亿人口中可能只有约 300 名真正的恐怖分子,即每百万人口中只有 1 名活跃的恐怖分子。这种不平衡会带来两个主要后果:
- 大量误报 :即使分类器的准确率达到前所未有的 99.999%,仍会将 3000 名无辜者误分类为恐怖分子,是实际抓获恐怖分子数量的 10 倍。
- 训练样本不足 :可能有成千上万的无辜者作为正例(类别 0),但只有几十名已知的恐怖分子作为负例(类别 1)进行训练。在这种情况下,逻辑分类器可能会将所有恐怖分子误分类为非恐怖分子,因为与处理较大类别相比,误分类恐怖分子对损失函数的贡献不大。
为了产生更好的分类器,可以采取以下方法:
- 丢弃较大类别的成员 :这是实现平衡训练
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



