什么是逻辑回归

逻辑回归是一种广泛应用于分类问题的统计模型,尤其常用于二分类任务。尽管名字中有“回归”二字,但它实际上是一个分类算法,不是回归模型。

1. 目标

逻辑回归的主要目标是预测某个事件发生的概率。例如,在二分类问题中,逻辑回归预测的是一个输入样本属于类别1的概率,而类别0的概率可以通过1减去这个概率得到。

2. 逻辑回归模型

逻辑回归模型的核心是 Sigmoid函数(或称为Logistic函数),它将任何实数映射到0到1之间,适合表示概率。

Sigmoid函数的公式是:

其中,zzz 是线性回归模型的输出,通常表示为:

这就是线性回归的形式,但逻辑回归通过应用Sigmoid函数将线性回归的输出转化为一个概率值。结果是预测类别1的概率:

而类别0的概率就是:

3. 逻辑回归的训练

训练逻辑回归模型的目标是通过最小化 损失函数 来找到最优的参数(即权重和偏置)。逻辑回归的损失函数通常使用 对数似然损失函数,它的形式是:

其中:

  • y^(i) 是第i个样本的真实标签(0或1)
  • hβ(x^(i))是预测的概率(即经过Sigmoid函数处理后的值)

使用梯度下降等优化算法来最小化这个损失函数,从而找到最优的参数β。

4. 预测

在训练完逻辑回归模型后,我们可以用它来进行预测。对于新输入的数据,模型会计算出一个概率值(介于0和1之间)。通常,若该概率值大于0.5,则预测为类别1;若小于0.5,则预测为类别0。

5. 逻辑回归的优缺点

优点:

  • 简单高效:计算和实现相对简单。
  • 概率输出:不仅提供类别预测,还能给出分类的概率。
  • 适用于线性可分问题:在特征与类别之间存在线性关系时效果很好。

缺点:

  • 只能处理线性可分的情况:当特征与类别之间的关系非常复杂时,逻辑回归可能效果不好。
  • 对异常值敏感:尤其是在数据量较少时,异常值可能会影响模型的表现。
  • 不能处理多类别问题:虽然有扩展方法(如一对多策略),但原始的逻辑回归是设计用于二分类问题的。

6. 扩展:多分类问题

对于多分类问题,可以使用 Softmax回归,它是逻辑回归的推广,能够处理多个类别的情况。

逻辑回归在很多机器学习应用中都非常常见,尤其在医学、金融、市场分析等领域中,广泛用于疾病预测、客户流失预测、信用评分等任务。

示例:肿瘤是否为恶性

假设我们有一个数据集,用来预测肿瘤是否为恶性。我们根据病人的一些特征(比如肿瘤的大小、形状、密度等)来进行预测,最终目标是预测肿瘤是良性还是恶性。

数据集

假设我们有以下特征:

  • 肿瘤大小:用毫米表示(例如,肿瘤的直径)
  • 肿瘤形状:一个数值,表示形状的规则性(例如,越接近1表示形状越规则,越接近0表示形状越不规则)
  • 肿瘤密度:数值,表示肿瘤的密度,值越大,表示肿瘤越密集。

我们假设目标变量是 恶性肿瘤(1表示恶性,0表示良性)。

示例数据
肿瘤大小(mm)肿瘤形状肿瘤密度恶性肿瘤(标签)
50.81.20
80.61.81
70.91.50
100.52.01
60.71.30
90.42.21
步骤 1: 构建模型

逻辑回归会将特征(肿瘤大小、形状、密度)作为输入,使用以下公式来预测肿瘤是恶性(1)还是良性(0):

然后,将z代入sigmoid函数,得到预测的概率:

步骤 2: 训练模型

在训练过程中,模型会根据训练数据不断调整参数(β0,β1,β2,β3​),通过最小化损失函数(如对数似然损失函数)来找到最优的参数。

步骤 3: 预测

假设训练好后,模型得到了以下参数:

  • β0=−3
  • β1=0.5
  • β2=−1.2
  • β3=1.5

对于一个新的肿瘤,假设其特征是:

  • 肿瘤大小 = 8 mm
  • 肿瘤形状 = 0.6
  • 肿瘤密度 = 1.9

我们可以使用训练好的模型来计算该肿瘤是恶性的概率:

然后将z代入sigmoid函数:

因此,模型预测该肿瘤有约95.8%的概率是恶性的。

步骤 4: 结果解释

由于我们得到的概率 P(恶性)≈0.958 大于0.5,所以模型预测该肿瘤为恶性(即输出类别1)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值