线性回归与分类

最新推荐文章于 2024-10-30 10:56:27 发布

原创最新推荐文章于 2024-10-30 10:56:27 发布 · 845 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#Logistic #线性回归

MachineLearning 专栏收录该内容

16 篇文章

订阅专栏

本文探讨了线性回归的LMS算法、梯度下降及其变体，还介绍了局部加权线性回归和Logistic回归的sigmoid函数。进一步讨论了Generalized Linear Model，解释了为何在分类问题中会选择sigmoid函数，并提及softmax函数作为多元分类的推广。

回顾线性回归，logistic回归和softmax。

LMS

先构造线性函数进行拟合： $\theta_0 + \theta_1 x_1 + \theta_2 x_2$
定义cost function： $J(θ)=12∑(h(xi)−yi)2J(\theta) = \frac{1}{2} \sum (h(x^{i}) - y^i)^2$
因此，可使用梯度下降进行求解
- gradient descent algorithm： $θi:=θj−α∂∂θjJ(θ)\theta_i := \theta_j - \alpha\frac{\partial} {\partial \theta_j} J(\theta)$
- LMS update rule(Widrow-Hoff learning rule)： $θj:=θj+α(yi−h(xi))xji\theta_j := \theta_j +\alpha (y^i - h(x^i))x_j^i$
- Bath gradient descent
  - This method looks at every example in the entire training set on every step
- stochastic gradient descent (also incremental gradient descent)
  - Repeatedly run through the training set, and each time we encounter a training example, we update the parameters according to the gradient of the error with respect to that single training example only
Matrix derivatives
- $θ=(XTX)−1XTy\theta = (X^TX)^{-1} X^T y$
Probabilistic interpretation
- assume $ϵ∼N(0,σ2),yi=θTxi+ϵi\epsilon \sim N(0,\sigma^2), y^i = \theta^T x^i +\epsilon^i$
- 可通过likelihood的方式得到最优解其实就是最小化least square cost
  - $min⁡12∑(yi−θTxi)2\min \frac{1}{2}\sum (y^i - \theta^T x^i)^2$
  - 注意，这里对 $θ\theta$ 的假设中，与正态分布中的方差大小无关。
Locally weighted linear regression
- 这是一种非参数模型
  - 在普通的线性拟合中，我们的参数是固定的
  - 而在locally weighted线性模型中，参数是随着训练集合进行增长的（Loess），可以不让我们担心如何来确定feature（在局部进行线性回归）
- $min⁡∑wi(yi−θTxi)2\min \sum w^i(y^i - \theta^T x^i)^2$
- $wi=exp⁡(−(xi−x)22τ2)w^i = \exp(-\frac{(x^i - x)^2}{2\tau ^2})$
  - 离该样本越近，则权重越大（趋近1），可以看成在局部进行线性回归（局部权重基本不变）
- 与KNN的关系？

logistic regression

sigmoid function: $\frac{1}{1+e^{-z}}$
- $g^{'} (z) = g (z) (1 - g (z)) $
同样可以用likelihood得到
- $l(θ)=∑yilog⁡h(xi)+(1−yi)log⁡(1−h(xi))l(\theta) = \sum y^i \log h(x^i) + (1-y^i)\log (1-h(x^i))$
using gradient ascent
- $θj:=θj+α(yi−h(xi))xji\theta _j := \theta_j + \alpha(y^i - h(x^i)) x_j^i$
同时，我们还可以用Newton法来找最小值
- 我们想要找极大值点，也就是一阶导数为0，因此： $θ:θ−l′(θ)l′′(θ)\theta: \theta - \frac{l^{'}(\theta)}{l^{''}(\theta)}$
- 写成矩阵的形式： $θ:=θ−H−1▽l(θ)\theta := \theta - H^{-1}\bigtriangledown l(\theta)$ ，其中Hessian矩阵为 $Hij=∂l2(θ)∂θi∂θjH_{ij} = \frac{\partial l^2(\theta)}{\partial \theta_i \partial \theta_j}$
- 在数据量较小时比gradient ascent收敛快，但计算Hessian困难

Generalized Linear Model

首先介绍exponential family：
- $p(y,η)=b(y)exp⁡(ηTT(y)−a(η))p(y,\eta) = b(y) \exp (\eta^TT(y) - a(\eta))$
很容易可以证明，无论是分类问题（multinomial）还是回归问题（正态分布），都可以转换为指数族的形式
通过指数族的形式，我们可以发现，在线性假设下，我们之前的logistic回归的sigmoid方程其实就是给定x下y的Bernoulli分布。
因此，为什么我们之前要选择sigmoid函数呢？
- 因为其广义线性模型的指数族形式的充分统计量的canonical形式就是sigmoid函数。
softmax function
- 可通过multinomial的指数族形式可以得到： $ϕi=eiη∑ejη\phi_i = \frac{e^\eta_i}{\sum e^\eta_j}$
- 可以认为是logistic regression的推广

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。