34、逻辑分类中的问题与解决方案

逻辑分类中的问题与解决方案

1. 逻辑回归分类器简介

逻辑回归分类器在某些场景下表现出色,例如在体重 - 身高空间中对男性和女性进行分类。有一个逻辑回归分类器能很好地将男性和女性区分开,红色区域包含229名女性和仅63名男性,而蓝色区域包含223名男性和65名女性。逻辑回归的损失函数是凸函数,这意味着我们可以使用梯度下降法找到最适合训练样本的参数w,从而为二元分类提供了一种自然的方法。

2. 逻辑分类中的问题及解决方案
2.1 平衡训练类别

在实际分类问题中,类别不平衡是一个常见的问题。以判断一个人是否为恐怖分子为例,在一个国家的总人口中,恐怖分子的数量极少。比如在美国,3亿人口中可能只有约300名真正的恐怖分子,即每百万人口中只有1名活跃的恐怖分子。这种不平衡会带来两个主要后果:
- 任何有意义的分类器都会产生大量误报。即使分类器的准确率达到前所未有的99.999%,也会将3000名无辜者误分类为恐怖分子,是实际能抓到的恐怖分子数量的10倍。
- 用于训练的实际恐怖分子样本数量极少。可能有上万名无辜者作为正例(类别0),但只有几十名已知恐怖分子作为负例(类别1)进行训练。

为了解决类别不平衡的问题,我们可以采取以下几种方法:
| 方法 | 具体操作 | 优缺点 |
| — | — | — |
| 丢弃较大类别的成员 | 丢弃较大类别中多余的实例,以实现训练类别的平衡。如果有足够的稀有类别元素来构建一个像样的分类器,这种方法是合理的。 | 优点:简单直接,能创建一个不偏向多数类别的更具挑战性的问题;缺点:可能会丢失一些有用信息。 |
| 复制较小类别的元素并添加扰动 | 复

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值