机器学习面试必知：简单易懂的逻辑回归

最新推荐文章于 2024-05-26 07:54:50 发布

原创最新推荐文章于 2024-05-26 07:54:50 发布 · 1k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#逻辑回归 #LR #机器学习

机器学习同时被 3 个专栏收录

39 篇文章

订阅专栏

面试

39 篇文章

订阅专栏

回归

4 篇文章

订阅专栏

本文深入探讨了逻辑回归在二分类与多分类任务中的应用，解析了sigmoid和softmax函数的作用，以及它们如何被用于预测概率。通过似然函数和交叉熵损失函数，详细讲解了参数更新的过程，包括随机梯度下降和批量梯度下降的方法。

假设有数据集 ${(x1,t1),...,(xn,tn)}\left \{ (x_{1},t_{1}),...,(x_{n},t_{n}) \right \}$ $ϕn=ϕ(xn)\phi _{n}=\phi \left ( x_{n}\right )$ 其中 $ϕ\phi$ 是基函数 $y(ϕ)=σ(wTϕ)y\left (\phi \right )=\sigma \left ( w^{T}\phi \right )$
sigmoid函数（为什么要用它下面会提到） $σ(a)=11+e−a\sigma \left ( a \right )=\frac{1}{1+e^{-a}}$ 导数 $dσda=σ(1−σ)\frac{d\sigma }{da}=\sigma\left ( 1-\sigma \right )$

LR 损失函数为什么用极大似然函数？
LR由于使用sigmoid函数作为激活函数，最后的输出在（0，1），所以可以将它看成是一个概率预测问题。我们想要让每一个样本的预测都要得到最大的概率，即将所有的样本预测后的概率进行相乘都最大，也就是极大似然函数.

我们先考虑二类逻辑回归的情况，那么 $tn∈{0,1}t_{n}\in \left \{ 0,1 \right \}$ 似然函数可以如下表示 $p(t∣w)=∏n=1Nyntn{1−yn}1−tnp\left ( \textbf{t}|w \right )=\prod_{n=1}^{N}y_{n}^{t_{n}}\left \{ 1- y_{n}\right \}^{1-t_{n}}$ 其中 $t={t1,...,tN}T\textbf{t}=\left \{ t_{1}, ...,t_{N}\right \}^{T}$ ， $yn=y(ϕn)y_{n}=y\left (\phi_{n} \right )$
接下来定义误差函数，取似然函数的负对数形式即交叉熵的形式 $E(w)=−lnp(t∣w)=−∑n=1N{tnlnyn+(1−tn)ln(1−yn)}E(w)=-\mathrm{ln}p\left ( \textbf{t}|w \right )=-\sum_{n=1}^{N}\left \{ t_{n}\mathrm{ln}y_{n}+ (1- t_{n} )\mathrm{ln}(1-y_{n}) \right \}$ 两侧取误差函数的梯度，得到 $▽E(w)=−∑n=1N{tnynyn′−1−tn1−ynyn′}=∑n=1N(yn−tn)ϕn\bigtriangledown E(w)=-\sum_{n=1}^{N}\left \{ \frac{t_{n}}{y_{n}}y_{n}^{'} -\frac{1-t_{n}}{1-y_{n}}y_{n}^{'} \right \}=\sum_{n=1}^{N}\left ( y_{n}-t_{n} \right )\phi _{n}$ 可以看到最右侧的形式与线性回归的平方和误差的梯度函数形式相同，这也是用sigmoid函数的一个原因

那么多分类逻辑回归呢？首先激活函数换成softmax形式（为什么多分类用softmax下面会提到），t用1-K(one-hot编码)形式

softmax：

$yk(ak)=eak∑j=1Neajy_{k}(a_{k})=\frac{e^{a_{k}}}{\sum_{j=1}^{N}e^{a_{j}}}$ 其中 $ak=wkTϕa_{k}=w_{k}^{T}\phi$ 导数推导： $\frac{\partial y_{k}}{\partial a_{j}}=\frac{e^{a_{k}}\sum -e^{a_{j}}e^{a_{k}}}{\sum ^{2}}, k=j$ $∂yk∂aj=−eajeak∑2,k≠j\frac{\partial y_{k}}{\partial a_{j}}=\frac{-e^{a_{j}}e^{a_{k}}}{\sum ^{2}}, k\neq j$ 合并得到( $Ikj\mathrm{I}_{kj}$ 是单位矩阵) $∂yk∂aj=yk(Ikj−yj)\frac{\partial y_{k}}{\partial a_{j}}=y_{k}(\mathrm{I}_{kj}-y_{j})$

跟二分类一样先取似然函数
$p(T∣w1,...,wk)=∏n=1N∏k=1Kynktnkp(\textbf{T}|w_{1},...,w_{k})=\prod_{n=1}^{N}\prod_{k=1}^{K}y_{nk}^{t_{nk}}$
其中T是目标变量的N*K的矩阵，元素为 $t_{nk}$ , $ynk=yk(ϕn)y_{nk}=y_{k}(\phi_{n})$
然后取负对数 $E(w1,...,wk)=−lnp(T∣w1,...,wk)=−∑n=1N∑k=1KtnklnynkE(w_{1},...,w_{k})=-\textrm{ln}p(\textbf{T}|w_{1},...,w_{k})=-\sum_{n=1}^{N}\sum_{k=1}^{K}t_{nk}\textrm{ln}y_{nk}$
取误差函数关于 $w_{j}$ 的梯度 $▽wjE(w1,...,wk)=−∑n=1N∑k=1K(tnkynk(ynk(Ikj−ynj)))=∑n=1N(ynj−tnj)ϕn\bigtriangledown_{w_{j}} E(w_{1},...,w_{k})=-\sum_{n=1}^{N}\sum_{k=1}^{K}\left ( \frac{t_{nk}}{y_{nk}}(y_{nk}(\mathrm{I}_{kj}-y_{nj})) \right )=\sum_{n=1}^{N}(y_{nj}-t_{nj})\phi_{n}$
可以看到又得到了相似的结果即与线性回归的平方和误差的梯度函数形式相同。

那我们顺便看看线性回归的平方和误差的梯度函数形式（也能高斯噪声下说明最大似然和最小平方的关系）

$y=wTϕ(x)y=w^{T}\phi(x)$ $t=y(x,w)+ϵ,ϵ∈N(0,β−1)t=y(x,w)+\epsilon,\epsilon \in N(0,\beta^{-1})$ $tϵN(y(x,w),β−1)t\epsilon N(y(x,w),\beta^{-1})$
似然函数 $p(t∣x,w,β)=∏n=1NN(tn∣wTϕ(x),β−1)p(\mathrm{t}|x,w,\beta)=\prod_{n=1}^{N}N(t_{n}|w^{T}\phi(x),\beta^{-1})$ 取负对数 $E(w,β)=lnp=−0.5∗β∗∑n=1N(tn−wTϕ(x))2+0.5∗N(lnβ−ln2π)E(w,\beta)=\mathrm{ln}p=-0.5*\beta*\sum_{n=1}^{N}(t_{n}-w^{T}\phi(x))^{2}+0.5*N(\mathrm{ln}\beta-\mathrm{ln}2\pi)$
可以看到如果对w求梯度也会得到 $∑n=1N(yn−tn)ϕn\sum_{n=1}^{N}\left ( y_{n}-t_{n} \right )\phi _{n}$ 这种形式。

下面说说二分类和多分类激活函数的选取

二分类考虑伯努利分布 $p(x∣u)=Bern(x∣u)=ux(1−u)1−x=(1−u)exp(lnu1−ux)p(x|u)=Bern(x|u)=u^{x}(1-u)^{1-x}=(1-u)exp(\mathrm{ln}\frac{u}{1-u}x)$

这里有个知识点，标准的指数分布 $p(x∣η)=h(x)g(η)exp(ηTϕ(x))p(x|\eta)=h(x)g(\eta)exp(\eta^{T}\phi(x))$
在给定 $x$ 和 $w$ 后， $y$ 的条件概率 $P (y ∣ x; w)$ 服从指数分布。在给定x去预测y的期望值 $h (x) = E (y ∣ x)$ ，h(x)是预测函数,满足 $η=wTx\eta=w^{T}x$

转换为指数分布的形式有 $η=lnu1−u\eta=\mathrm{ln}\frac{u}{1-u}$ ----> $exp(η)=u1−uexp(\eta)=\frac{u}{1-u}$ ----> $u=exp(η)1+exp(η)u=\frac{exp(\eta)}{1+exp(\eta)}$ ----> $u=σ(η)=11+exp(−η)u=\sigma(\eta)=\frac{1}{1+exp(-\eta)}$

考虑到伯努利分布 $E (x ∣ u) = u$ ，由上可得 $u=σ(η)=11+exp(−η)=11+exp(−wTx)u=\sigma(\eta)=\frac{1}{1+exp(-\eta)}=\frac{1}{1+exp(-w^{T}x)}$ 这就是预测函数h(x),这也就解释了激活函数为什么要用sigmoid。

多分类考虑多项式分布（同理可得）
$p(x∣u)=∏k=1Kukxk=exp(∑k=1Kxklnuk)p(x|u)=\prod_{k=1}^{K}u_{k}^{x_{k}}=exp(\sum_{k=1}^{K}x_{k}\mathrm{ln}u_{k})$ 所以 $ηk=lnuk\eta_{k}=\mathrm{ln}u_{k}$
$h(x)=E(x∣u)=(u1,...,uK)T=(exp(η1),...,exp(ηK))Th(x)=E(x|u)=(u_{1},...,u_{K})^{T}=(exp(\eta_{1}),...,exp(\eta_{K}))^{T}$
还有限制条件 $∑k=1Kuk=1\sum_{k=1}^{K}u_{k}=1$ 所以最后的h(x)为 $(exp(w1Tx),...,exp(wKTx))T∑j=1Kexp(wjTx)\frac{(exp(w_{1}^{T}x),...,exp(w_{K}^{T}x))^{T}}{\sum_{j=1}^{K}exp(w_{j}^{T}x)}$

最后再考虑softmax函数中K=2即二分类

$(exp(w1Tx),exp(w2Tx))T(exp(w1Tx)+exp(w2Tx)\frac{(exp(w_{1}^{T}x),exp(w_{2}^{T}x))^{T}}{(exp(w_{1}^{T}x)+exp(w_{2}^{T}x)}$
上下同时乘以 $exp(-w_{2}^{T}x)$ 得到 $((exp(w1T−w2T)x),1)T(exp(w1T−w2T)x)+1\frac{((exp(w_{1}^{T}-w_{2}^{T})x),1)^{T}}{(exp(w_{1}^{T}-w_{2}^{T})x)+1}$ 可以看到变成了sigmoid形式。在工程上实现时，让了防止譬如exp(1e8)这样的数值过大，通常也需要同乘 $exp(-max(w_{k}^{T})x)$

我们接下来看看如何更新模型中的参数。

顺序学习：用随机梯度法,每次更新使用一个数据 $w(τ+1)=w(τ)−η▽Enw^{(\tau+1)}=w^{(\tau)}-\eta\bigtriangledown E_{n}$
批量梯度法：用一组m个数据来更新 $▽∑j=1mEj\bigtriangledown \sum_{j=1}^{m}E_{j}$