[机器学习笔记]二:Classification and logistic regression（分类和逻辑回归）

最新推荐文章于 2022-03-06 17:21:06 发布

原创最新推荐文章于 2022-03-06 17:21:06 发布 · 399 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文探讨了二元分类问题及逻辑回归的应用，介绍了逻辑函数及其导数，并给出了似然函数和梯度下降法则，还涉及了牛顿法在最大化似然函数中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在前面我们讨论线性回归的问题，现在我们讲讨论二元分类的问题。二元分类的值是一个离散的值，仅仅为0或1.

1. Logistic regression(逻辑回归)

在讨论线性回归的时候，我们引入了评判函数。尽管我们可以用线性回归的评判函数来评判逻辑回归，但是这通常不会取得好的效果，因此我们将使用新的评判函数

g (z) = 1 1 + e - z ， 其 中 z = - θ T x (1)

$g(z) = \frac{1}{1+e^{-z}}，其中z=-\theta^Tx$
我们称这个函数为logistic function或sigmoid function.对g(z)求导，可以得到

g (z)' = g (z) (1 - g (z)) (2)

$g(z)^{'}=g(z)(1-g(z))$
可以得到

p (y | x; θ) = (h θ (x)) y (1 - h θ (x)) 1 - y (3)

$p(y|x;\theta) = (h_{\theta}(x))^y(1-h_{\theta}(x))^{1-y}$
那么评判z参数的似然函数为

L (θ) = \prod i = 1 m (h θ (x (i))) y (i) (1 - h θ (x (i))) 1 - y (i) (4)

$L(\theta) = \prod^{m}_{i=1}(h_{\theta}(x^{(i)}))^{y^{(i)}}(1-h_{\theta}(x^{(i)}))^{1-y^{(i)}}$
取

l (θ) = l o g L (θ) (5)

$l(\theta)=log L(\theta)$
我们可以推导出
1)当

l(θ)l(θ) $l(\theta)$ 取得最大值时，

L(θ)L(θ) $L(\theta)$ 取得最大值
2)

∂∂θjl(θ)=(y−hθ(x))xj∂∂θjl(θ)=(y−hθ(x))xj $\frac{∂}{∂\theta_j}l(\theta) = (y-h_\theta(x))x_j$
根据这个，我们可以得出梯度下降的规则。

2. Digression: The perceptron learning algorithm

我们前面的函数的值都是连续的，而事实上我们需要一些离散的值，那么只要制定一个分界线，其上为1，其下为0，就能实现这个需求。

3. Another algorithm for maximizing $l(θ)$

现在我们要介绍牛顿法，用来求最大似然值，牛顿法的总体思想，是不断进行 $\theta = \theta - \frac{f(\theta)}{f^{'}{\theta}}$ ，迭代的结果便是 $f(\theta)=0$
当然，我们前面的 $\theta$ 是一个向量，因此不能直接代入牛顿法中求值，因此我们要推广牛顿法，推广后的牛顿法公式如下：

θ = θ - H - 1 \nabla θ l (θ) (54)

$\theta = \theta - H^{-1}\nabla_{\theta}l(\theta)$
其中

H i j = \partial 2 l ( θ ) \partial θ i \partial θ j (55)

$H_{ij}=\frac{∂^2l(\theta)}{∂\theta_i∂\theta_j}$

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。