线性回归与分类

本文探讨了线性回归的LMS算法、梯度下降及其变体,还介绍了局部加权线性回归和Logistic回归的sigmoid函数。进一步讨论了Generalized Linear Model,解释了为何在分类问题中会选择sigmoid函数,并提及softmax函数作为多元分类的推广。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

回顾线性回归,logistic回归和softmax。

LMS

  • 先构造线性函数进行拟合:h(x)=θ0+θ1x1+θ2x2h(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_2h(x)=θ0+θ1x1+θ2x2
  • 定义cost function:J(θ)=12∑(h(xi)−yi)2​J(\theta) = \frac{1}{2} \sum (h(x^{i}) - y^i)^2​J(θ)=21(h(xi)yi)2
  • 因此,可使用梯度下降进行求解
    • gradient descent algorithm:θi:=θj−α∂∂θjJ(θ)\theta_i := \theta_j - \alpha\frac{\partial} {\partial \theta_j} J(\theta)θi:=θjαθjJ(θ)
    • LMS update rule(Widrow-Hoff learning rule): θj:=θj+α(yi−h(xi))xji\theta_j := \theta_j +\alpha (y^i - h(x^i))x_j^iθj:=θj+α(yih(xi))xji
    • Bath gradient descent
      • This method looks at every example in the entire training set on every step
    • stochastic gradient descent (also incremental gradient descent)
      • Repeatedly run through the training set, and each time we encounter a training example, we update the parameters according to the gradient of the error with respect to that single training example only
  • Matrix derivatives
    • θ=(XTX)−1XTy\theta = (X^TX)^{-1} X^T yθ=(XTX)1XTy
  • Probabilistic interpretation
    • assume ϵ∼N(0,σ2),yi=θTxi+ϵi\epsilon \sim N(0,\sigma^2), y^i = \theta^T x^i +\epsilon^iϵN(0,σ2),yi=θTxi+ϵi
    • 可通过likelihood的方式得到最优解其实就是最小化least square cost
      • min⁡12∑(yi−θTxi)2\min \frac{1}{2}\sum (y^i - \theta^T x^i)^2min21(yiθTxi)2
      • 注意,这里对θ\thetaθ的假设中,与正态分布中的方差大小无关。
  • Locally weighted linear regression
    • 这是一种非参数模型
      • 在普通的线性拟合中,我们的参数是固定的
      • 而在locally weighted线性模型中,参数是随着训练集合进行增长的(Loess),可以不让我们担心如何来确定feature(在局部进行线性回归)
    • min⁡∑wi(yi−θTxi)2\min \sum w^i(y^i - \theta^T x^i)^2minwi(yiθTxi)2
    • wi=exp⁡(−(xi−x)22τ2)w^i = \exp(-\frac{(x^i - x)^2}{2\tau ^2})wi=exp(2τ2(xix)2)
      • 离该样本越近,则权重越大(趋近1),可以看成在局部进行线性回归(局部权重基本不变)
    • 与KNN的关系?

logistic regression

  • sigmoid function: g(z)=11+e−zg(z) = \frac{1}{1+e^{-z}}g(z)=1+ez1
    • g′(z)=g(z)(1−g(z))​g'(z) = g(z)(1-g(z))​g(z)=g(z)(1g(z))
  • 同样可以用likelihood得到
    • l(θ)=∑yilog⁡h(xi)+(1−yi)log⁡(1−h(xi))l(\theta) = \sum y^i \log h(x^i) + (1-y^i)\log (1-h(x^i))l(θ)=yilogh(xi)+(1yi)log(1h(xi))
  • using gradient ascent
    • θj:=θj+α(yi−h(xi))xji\theta _j := \theta_j + \alpha(y^i - h(x^i)) x_j^iθj:=θj+α(yih(xi))xji
  • 同时,我们还可以用Newton法来找最小值
    • 我们想要找极大值点,也就是一阶导数为0,因此: θ:θ−l′(θ)l′′(θ)\theta: \theta - \frac{l^{'}(\theta)}{l^{''}(\theta)}θ:θl(θ)l(θ)
    • 写成矩阵的形式:θ:=θ−H−1▽l(θ)\theta := \theta - H^{-1}\bigtriangledown l(\theta)θ:=θH1l(θ),其中Hessian矩阵为 Hij=∂l2(θ)∂θi∂θjH_{ij} = \frac{\partial l^2(\theta)}{\partial \theta_i \partial \theta_j}Hij=θiθjl2(θ)
    • 在数据量较小时比gradient ascent收敛快,但计算Hessian困难

Generalized Linear Model

  • 首先介绍exponential family:
    • p(y,η)=b(y)exp⁡(ηTT(y)−a(η))p(y,\eta) = b(y) \exp (\eta^TT(y) - a(\eta))p(y,η)=b(y)exp(ηTT(y)a(η))
  • 很容易可以证明,无论是分类问题(multinomial)还是回归问题(正态分布),都可以转换为指数族的形式
  • 通过指数族的形式,我们可以发现,在线性假设下,我们之前的logistic回归的sigmoid方程其实就是给定x下y的Bernoulli分布。
  • 因此,为什么我们之前要选择sigmoid函数呢?
    • 因为其广义线性模型的指数族形式的充分统计量的canonical形式就是sigmoid函数。
  • softmax function
    • 可通过multinomial的指数族形式可以得到:ϕi=eiη∑ejη\phi_i = \frac{e^\eta_i}{\sum e^\eta_j}ϕi=ejηeiη
    • 可以认为是logistic regression的推广
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值