机器学习八股

干饭高手

已于 2025-03-17 10:35:33 修改

阅读量1.1k

点赞数 22

分类专栏：面试八股文章标签：算法机器学习机器学习八股

于 2025-02-17 16:15:28 首次发布

本文链接：https://blog.youkuaiyun.com/m0_52000310/article/details/145682565

版权

面试八股专栏收录该内容

4 篇文章

订阅专栏

梯度下降

https://zhuanlan.zhihu.com/p/137713040

梯度下降更新公式： $\theta_{k+1}=\theta_{k}-\alpha·g$
- 其中 $\alpha$ 表示步长， $g$ 表示梯度
- 减号表示朝着负梯度方向，所以是梯度下降

对于非凸问题，可能会陷入局部最优，解决方案之一为，多取几个随机初始点；对于凸问题，由于一定存在全局最小，则不存在该问题

逻辑回归

https://zhuanlan.zhihu.com/p/139122386
https://cloud.tencent.com/developer/article/1694338

（1）逻辑回归表达式

逻辑回归实际上就是添加了sigmoid的线性回归
$f(y)=\frac{1}{1+e^{-y}}$

$\theta _ { 0 } + \theta _ { 1 } x _ { 1 } + \theta _ { 2 } x _ { 2 } + \cdots + \theta _ { n } x _ { n } = \theta ^ { T } x$

所以逻辑回归的表达式为：
$\frac { 1 } { 1 + e ^ { - y } } = \frac { e ^ { y } } { 1 + e ^ { y } }$
其中 $y=\beta_0+\beta_1x_1……+\beta_px_p$

求导可得：
$\prime } ( y ) = \frac { e ^ { y } ( 1 + e ^ { y } ) - e ^ { y } \ast e ^ { y } } { ( 1 + e ^ { y } ) ^ { 2 } } = g ^ { \prime } ( y ) = \frac { e ^ { y } } { ( 1 + e ^ { y } ) ^ { 2 } }$

进一步化简得：
$\prime } ( y ) = \frac { e ^ { y } } { ( 1 + e ^ { y } ) } \ast \frac { 1 } { ( 1 + e ^ { y } ) }$

$\prime } ( y ) = \frac { e ^ { y } } { ( 1 + e ^ { y } ) } * \left[ 1 - \frac { e ^ { y } } { ( 1 + e ^ { y } ) } \right]$

$\prime } ( y ) = g ( y ) ^ { * } \left[ 1 - g ( y ) \right]$

转换一下逻辑回归函数
$\frac { 1 } { 1 + e ^ { - y } } \Rightarrow g ( y ) \ast ( 1 + e ^ { - y } ) = 1$

$\Rightarrow e ^ { - y } = \frac { 1 } { g( y ) } - 1 \Rightarrow - y = \ln ( \frac { 1 - g ( y ) } { g ( y ) } )$
g
$\Rightarrow y = \ln ( \frac { g ( y ) } { 1 - g ( y ) } )$

（2）似然函数

概率：某个事件发生的可能性
似然性（likehood）：一个事件实际已经发生了，反推在什么参数条件下，这个事件发生的概率最大

数学表达形式为：

概率：已知参数 β 前提下，事件x发生的条件概率 $P(x|\beta)$
似然性：已知某个已发生的事件 x，未知参数 β 的似然函数为 $L(\beta|x)$
上面两个值相等，即: $P(x|\beta)$ = $L(\beta|x)$

最优的 $\beta$ ，就是让当前观察到的数据 X 出现的可能性最大的 $\beta$

将逻辑回归输出的值视为概率，则预测为正类的概率：
$P(Y=1|x)=\frac{1}{1+e^{- \theta ^ { T } x}}$

相应的，预测负类的概率为：
$\frac { 1 } { 1 + e ^ { - \theta ^ { T } x} } = \frac { 1 } { 1 + e ^ { \theta ^ { T } x} }$

令
$\theta } ( x ) = \frac{1}{1+e^{- \theta ^ { T } x}}$
可得
$\theta } ( x )$

$\theta } ( x )$

所以对于某一个样本发生的概率可以表示为：
$\theta ) = ( g _ { \theta } ( x ) ) ^ { y } ( 1 - g _ { \theta } ( x ) ) ^ { 1 - y }$

y = 1 时，= $\theta } ( x )$
y = 0 时，= $\theta } ( x )$

对于一批样本，同时发生的概率为（即为似然函数）

$\theta ) = \prod _ { i = 1 } ^ { m } p ( y _ { i } | x _ { i } ; \theta ) = \prod _ { i = 1 } ^ { m } ( g _ { \theta } ( x _ { i } ) ) ^ { y _ { i } } ( 1 - g _ { \theta } ( x _ { i } ) ) ^ { 1 - y _ { i } }$

其中， $\theta$ 就是我们要求的参数，最优参数为让上述概率最大的值

（3）求解似然函数

化简上一步得到的似然函数，将连乘改为连加
$\theta ) = \ln ( L ( \theta ) ) = \sum _ { i = 1 } ^ { m } \ln ( p ( y _ { i } | x _ { i } ; \theta ) )$

$\sum _ { i = 1 } ^ { m } ( y _ { i } \ln ( g _ { \theta } ( x _ { i } ) ) + ( 1 - y _ { i } ) \ln ( 1 - g _ { \theta } ( x _ { i } ) ) )$

然后就可以用梯度上升，求得使似然函数最大的 $\theta$

定义，平均对数似然损失：
$\theta ) = - \frac { 1 } { m } \ln ( L ( \theta ) )$

最大化似然等价于最小化损失
$\max \ln ( L ( \theta ) ) \Leftrightarrow \min J ( \theta )$

于是将问题转换为，梯度下降，求最小化损失的 $\theta$

根据 $\theta_{k+1}=\theta_{k}-\alpha·梯度$ ，更新参数即可

$\begin{matrix} J ( \theta ) = - \frac { 1 } { m } \ln ( L ( \theta ) ) = - \frac { 1 } { m } I ( \theta ) \\ J ( \theta ) = - \frac { 1 } { m } \sum _ { i = 1 } ^ { m } ( y _ { i } \ln ( g _ { i } ( x _ { i } ) ) + ( 1 - y _ { j } ) \ln ( 1 - g _ { i } ( x _ { i } ) ) ) \end{matrix}$

对损失函数求导：
$\frac { \delta J ( \theta ) } { \delta \theta j } = - \frac { 1 } { m } \sum _ { i = 1 } ^ { m } \left[ y _ { i } * \frac { 1 } { g _ { \theta } ( x _ { i } ) } * \frac { \delta g _ { \theta } ( x _ { i } ) } { \delta \theta j } - ( 1 - y _ { i } ) * \frac { 1 } { 1 - g _ { \theta } ( x _ { i } ) } * \frac { \delta g _ { \theta } ( x _ { i } ) } { \delta \theta j } \right]$

$\frac { \delta J ( \theta ) } { \delta \theta j } = - \frac { 1 } { m } \sum _ { i = 1 } ^ { m } \left[ y _ { i } \ast \frac { 1 } { g _ { \theta } ( x _ { i } ) } - ( 1 - y _ { i } ) ^ { * } \frac { 1 } { 1 - g _ { \theta } ( x _ { i } ) } \right] \ast \frac { \delta g _ { \theta } ( x _ { i } ) } { \delta \theta j }$

$\frac { \delta J ( \theta ) } { \delta \theta j } = - \frac { 1 } { m } \sum _ { i = 1 } ^ { m } \left[ y _ { i } \ast \frac { 1 } { g ( \theta ^ { T } x _ { i } ) } - ( 1 - y _ { i } ) \ast \frac { 1 } { 1 - g ( \theta ^ { T } x _ { i } ) } \right] \ast \frac { \delta g ( \theta ^ { T } x _ { i } ) } { \delta \theta j }$

$\frac { \delta J ( \theta ) } { \delta \theta j } = - \frac { 1 } { m } \sum _ { i = 1 } ^ { m } \left[ y _ { i } \ast \frac { 1 } { g ( \theta ^ { T } x _ { i } ) } - ( 1 - y _ { i } ) ^ { * } \frac { 1 } { 1 - g ( \theta ^ { T } x _ { i } ) } \right] ^ { * } g ( \theta ^ { T } x _ { i } ) ^ { * } \left[ 1 - g ( \theta ^ { T } x _ { i } ) \right] ^ { * } \frac { \delta \theta ^ { T } x _ { i } } { \delta \theta j }$

$\frac { \delta J ( \theta ) } { \delta \theta j } = - \frac { 1 } { m } \sum _ { i = 1 } ^ { m } \left[ y _ { i } ^ { * } ( 1 - g ( \theta ^ { T } x _ { i } ) ) - ( 1 - y _ { i } ) ^ { * } g ( \theta ^ { T } x _ { i } ) \right] ^ { * } x _ { i } ^ { j }$

$\frac { \delta J ( \theta ) } { \delta \theta j } = - \frac { 1 } { m } \sum _ { i = 1 } ^ { m } \left[ y _ { i } - g ( \theta ^ { T } x _ { i } ) \right] ^ { * } x _ { i } ^ { j }$

$\frac { \delta J ( \theta ) } { \delta \theta j } = \frac { 1 } { m } \sum _ { i = 1 } ^ { m } \left[ g ( \theta ^ { T } x _ { i } ) - y _ { i } \right] ^ { * } x _ { i } ^ { j }$