Logistic Regression分类器与softmax分类器

最新推荐文章于 2024-07-22 18:25:36 发布

最新推荐文章于 2024-07-22 18:25:36 发布 · 522 阅读

·

0

·

本文深入介绍了Logistic回归的基础原理及应用，包括两类和多类分类问题，并探讨了正则化技术如何防止过拟合。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 两类Logistic回归

Logistic回归是一种非常高效的分类器。它不仅可以预测样本的类别，还可以计算出分类的概率信息。

不妨设有n个训练样本{x1,...,xn}，xi是d维向量，其类别标签是{y1,...,yn}。对于一个c类问题，yi∈{1,2,...,c}。Logistic回归学习这样一个函数

f (x) = g (θ T x) = 1 1 + e - θ T x (1)

其中，

g (z) = 1 1 + e - z (2)

被称为Logistic函数或者Sigmoid函数。

设x=[x(1),...,x(d)]T。实际上，θTx这儿应该写成θ0+θTx（θ是d维向量），要有个常数项。但是为了方便，我们设x(0)=1，所以θ0+θTx可以直接写作θTx，而此处的θ是d+1维向量，即θTx=∑dj=0θjx(j)。

可以看出来，当z无穷大时，g(z)趋于1；当z无穷小时，g(z)趋于0；当z=0时，g(z)=0.5。 g(z)的值域是[0,1]，所以f(x)的值域也是[0,1]。

首先我们考虑2类问题，设

P (y = 1 | x, θ) = f (x) (3)

即对于给定的样本

x，其属于类别

1的概率是

f(x)。则属于类别

0的概率是

P (y = 0 | x, θ) = 1 - f (x) (4)

上述概率也可以写作

P (y | x, θ) = f (x) y (1 - f (x)) 1 - y (5)

Logistic回归具有如下的特点。一个事件发生的机率（odds）定义为事件发生的概率与不发生的概率的比值。设p=P(y=1|x,θ)，那么事件的机率是p1−p。其对数函数是

l o g p 1 - p = l o g P ( y = 1 | x , θ ) 1 - P ( y = 1 | x , θ ) = θ x (6)

可以看出，输出类别

1的对数机率是输入

x的线性函数。

此外，后验概率也可以写作如下形式：

P (y = 1 | x, θ) = e θ T x 1 + e θ T x P (y = 0 | x, θ) = 1 1 + e θ T x (7)

(这与下文将到的多类形式一致)

学习or训练的过程就是通过训练数据，来求解出最优的参数θ。而预测的方法是计算后验概率P(y|x,θ)，如果大于0.5，则预测为类别1；否则为类别0。

以下使用极大似然估计方法来求解参数。参数θ的似然函数是：

L (θ) = \prod i = 1 n P (y i | x i, θ) = \prod i = 1 n f (x i) y i (1 - f (x i)) 1 - y i (8)

最大化似然函数往往比较困难，可以通过最大化对数似然函数来求解。θ的对数似然函数是：

ℓ (θ) = log L (θ) = log \prod i = 1 n f (x i) y i (1 - f (x i)) 1 - y i = \sum i = 1 n log f (x i) y i (1 - f (x i)) 1 - y i = \sum i = 1 n y i log f (x i) + (1 - y i) log (1 - f (x i)) (9)

实际上，代价函数的形式是：

J (θ) = - 1 n \sum i = 1 n y i log f (x i) + (1 - y i) log (1 - f (x i)) (10)

所以最小化代价函数就等价于最大化似然估计。

可以通过梯度下降法来求解l(θ)的极大值。即

θ : = θ + α \nabla θ ℓ (θ) (11)

\partial \partial θ j ℓ (θ) = \partial \partial θ j \sum i = 1 n y i log g (θ T x i) + (1 - y i) log (1 - g (θ T x i)) = \sum i = 1 n (y i 1 g ( θ T x i ) - (1 - y i) 1 1 - g ( θ T x i )) \partial \partial θ j g (θ T x i) = \sum i = 1 n (y i 1 g ( θ T x i ) - (1 - y i) 1 1 - g ( θ T x i )) g (θ T x i) (1 - g (θ T x i)) \partial \partial θ j θ T x i = \sum i = 1 n (y i (1 - g (θ T x i)) - (1 - y i) g (θ T x i)) x (j) i = \sum i = 1 n (y i - f (x i)) x (j) i (12)

x(j)i是第

i个样本的第

j个特征。

所以，对于参数θ向量中的任一元素θj，迭代方式如下:

θ j : = θ j + α \sum i = 1 n (y i - f (x i)) x (j) i (13)

如此，便可将全部参数求解出来。

此外，Logistic回归的求解也可以采用Newton迭代法等。

2. 正则化
在机器学习中，正则化是非常常用的方法。它用来约束模型的参数，使得求解出来的参数不会太大（模型不能过于复杂），以防止过拟合。

Logistic回归经常加入ℓ1正则或者ℓ2正则。参数求解的问题转变为：

arg max θ ℓ (θ) - α ∥ θ ∥ 2 (14)

3. 多类情况

%可以换一种角度来理解Logistic回归。一个事件发生与不发生的比值被称为机率（odds）。假设发生的概率是p，那么发生的几率是p/(1−p)。几率越大，发生的可能性越大。

面向多类分类问题的Logistic回归，也叫softmax regression。假设是一个c类问题，则类别标签yi∈{1,...,c}。使用one-vs-all策略可以将两类分类器扩展为多类分类器，即将选取任意一类，再将其它所有类看成是一类，构建一个两类分类器，这样一共需要c个分类器。

定义

P (y = 1 | x) P (y = 2 | x) P (y = c | x) = e θ T 1 x \sum c k = 1 e θ T k x = e θ T 2 x \sum c k = 1 e θ T k x . . . = e θ T c x \sum c k = 1 e θ T k x (15)

该模型有这样一个性质，对于所有参数θi，加上一个向量v，后验概率的值不变。即

e ( θ 1 + v ) T x \sum c k = 1 e ( θ k + v ) T x = e θ T 1 x + v T x \sum c k = 1 e θ T k x + v T x = e θ T 1 x e v T x \sum c k = 1 e θ T k x e v T x = e θ T 1 x \sum c k = 1 e θ T k x (16)

我们设v=θc, 则新的参数为

θ 1 = θ 1 - θ c . . . θ c - 1 = θ c - 1 - θ c θ c = 0 (17)

则多类Logistic回归模型可写作

P (y = 1 | x) P (y = c - 1 | x) P (y = c | x) = e θ T 1 x 1 + \sum c - 1 k = 1 e θ T k x . . . = e θ T c - 1 x 1 + \sum c - 1 k = 1 e θ T k x = 1 1 + \sum c - 1 k = 1 e θ T k x (18)

加入正则项后的代价函数可以表述为

J (θ) = - 1 m (\sum i = 1 n \sum k = 1 c 1 {y i = k} l o g θ k x i \sum c l = 1 θ T l x i) (19)

其中，

1{yi=k}是指示函数，若

yi=k为真，则等于

1，否则等于

0。

对于参数的求解，与两类问题的求解方法一样。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。