机器学习----秋招----001

最新推荐文章于 2025-05-21 01:50:00 发布

原创最新推荐文章于 2025-05-21 01:50:00 发布 · 308 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#秋招 #机器学习

本文深入探讨了机器学习中的梯度下降法、动量法、随机梯度下降法及Adma等优化算法，并介绍了范数、sigmoid函数、最大似然估计等概念。此外，还详细解释了逻辑回归的工作原理及其在多分类问题中的应用。

梯度下降

Momentum 参考了物理中动量的概念。前几次的梯度也会参与到当前的计算中，但是前几轮的梯度叠加会有衰减。

tf.train.MomentumOptimizer(learning_rate=0.01,momentum=0.9)

SGD随机梯度下降，每一次迭代计算数据集的min-batch的梯度，然后对参数更新。

tf.train.GradientDescentOptimizer(learning_rate=0.01)

Adma(适应性动量估计法)：寻找的是局部最优，相比于SGD，它速度更快。

tf.train.AdmaOptimizer(lerning_rate=0.01,beta1=0.9,beta2=0.999,epsilon=1e-08)

范数

L1范数（或L1正则化） ： $\|X\|_{0}=\sum_{i=0}^{n}\left|X_{i}\right|$ ,表示向量x中的非0元素的绝对值之和。

L2范数（或L2正则化）： $\|x\|_{2} :=\sqrt{\sum_{i=1}^{n} x_{i}^{2}}$ 表示向量元素的平方和再开平方。

L1正则在某些点不可导说明

f(x)=|x| 在0处是连续的，但是不可导

连续是左极限=右极限。

可导是左导数=右导数。

怎么解决这个问题呢？

proximal operator（最近邻操作）： $\left(\operatorname{prox}_{t_{i} h}(x)\right)_{i}=\left\{\begin{array}{ll}{x_{i}-\lambda t_{k}} & {x_{i} \geq \lambda t_{k}} \\ {0} & {\left|\mathrm{x}_{i}\right| \leq \lambda t_{k} |} \\ {x_{i}+\lambda t_{k}} & {x_{i} \leq-\lambda t_{k}}\end{array}\right.$

`sigmoid`函数特性

$S(x)=\frac{1}{1+e^{-x}}$

定义域： $(-\infty,+\infty)$
值域： $(- 1, 1)$
处处可导: $f^{\prime}(x)=f(x)(1-f(x))$

切比雪夫不等式（不会）

设随机变量X具有数学期望 $E(X)=\mu$ , 方差 $D(X)=\sigma^{2}$ ,对于任意 $\varepsilon>0$ ,都有 $P\{|X-\mu| \geq \varepsilon\} \leq \frac{\sigma^{2}}{\varepsilon^{2}}$ === $P\{|X-\mu|<\varepsilon\} \geq 1-\frac{\sigma^{2}}{\varepsilon^{2}}$

在这里插入图片描述

最大似然估计和最大后验概率

尊重知识产权：

详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

最大似然估计（MLE）

利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。或是提供了一种给定观察数据来评估模型参数的方法,而最大似然估计中的采样满足所有采样都是独立同分布的假设。

最大后验概率（MAP）

与最大似然估计最大的不同是最大后验概率融入了要估计量的先验分布在其中

共轭先验分布

假设 $\mathrm{\theta}$ 为总体分布中的参数, $\mathrm{\theta}$ 的先验密度函数为 $\pi(\theta)$ ,而抽样信息算得的后验密度函数与 $\pi(\theta)$ 具有相同的函数形式,则称 $\pi(\theta)$ 为 $\mathrm{\theta}$ 共轭先验分布。

概率和似然的区别

概率是指在给定参数 $\mathrm{\theta}$ 的情况下,样本的随机向量X=x的可能性。而似然表示的是在给定样本X=x的情况下,参数 $\mathrm{\theta}$ 为真实值的可能性。一般情况,对随机变量的取值用概率表示。而在非贝叶斯统计的情况下,参数为一个实数而不是随机变量,一般用似然来表示。

欧拉公式

$e^{i x}=\cos x+i \sin x$

阵正定性的判断,Hessian矩阵正定性在梯度下降中的应用

若矩阵所有特征值均不小于0,则判定为半正定。若矩阵所有特征值均大于0,则判定为正定。在判断优化算法的可行性时Hessian矩阵的正定性起到了很大的作用,若Hessian正定,则函数的二阶偏导恒大于0,函数的变化率处于递增状态,在牛顿法等梯度下降的方法中,Hessian矩阵的正定性可以很容易的判断函数是否可收敛到局部或全局最优解。

熵

尊重知识产权：

详解熵、最大熵、联合熵和条件熵、相对熵以及互信息之间的关系

信息量

某事件发生的概率小，则该事件的信息量大。

定义随机变量X的概率分布为P(X),X的信息量为： $h(X)=-\log _{2} P(X)$

熵

就是求期望

$H(X)=-\sum_{x \in X} P(x) \log P(x)$

当对数底数是2时，单位是bit，当对数底数是e时，单位是nat(奈特)。同时，若P(x)=0P(x)=0,则定义0log0=0。由熵定义可知，随机变量的熵只依赖于X的分布，而与XX的取值无关。熵表示的是随机变量不确定性的度量。熵越大，随机变量的不确定性也就越大。

两点熵的分布

$H(X)=-\sum_{x \in X} P(x) \log P(x)=-p \log _{2} p-(1-p) \log _{2}(1-p)$

正态分布

$f(x)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{(x-\mu)}{2 \sigma^{2}}}$

联合熵

设随机变量(X,Y)，其联合概率分布是： $P\left(X=x_{i}, Y=y_{j}\right)=p\left(x_{i}, y_{j}\right)=p_{i j}, i=1,2, \cdots, n ; j=1,2, \cdots, m$

联合熵为 $Y)=-\sum_{x, y} P(x, y) \log P(x, y)$

条件熵

$H (Y ∣ X) = H (X, Y) - H (X)$

条件熵表示在已知随机变量X的条件下随机变量Y的不确定性。

$\begin{array}{l}{H(Y | X)=H(X, Y)-H(X)} \\ {=-\sum_{x, y} P(x, y) \log P(x, y)+\sum_{x} P(x) \log P(x)} \\ {=-\sum_{x, y} P(x, y) \log P(x, y)+\sum_{x}\left(\sum_{y} P(x, y)\right) \log P(x)} \\ {=-\sum_{x, y} P(x, y) \log P(x, y)+\sum_{x} \sum_{y} P(x, y) \log P(x)} \\ {=-\sum_{x, y} P(x, y) \log \frac{P(x, y)}{P(x)}} \\ {=-\sum_{x, y} P(x, y) \log P(y | x)}{=-\sum_{x} P(x) \sum_{y} P(y | x) \log P(y | x)} \\ {=\sum_{x} P(x)\left(-\sum_{y} P(y | x) \log P(y | x)\right)} \\ {=\sum_{x} P(x) H(Y | X=x)}\end{array}$

H(Y|X))定义为X给定的条件下Y的条件概率分布的熵对X的数学期望。

交叉熵

输出标签表示为{0,1}时，损失函数表达式为：

$\log \hat{y}+(1-y) \log (1-\hat{y})]$

多个样本的表达式是：

取对数：

$\log p(y | x)=y \log \hat{y}+(1-y) \log (1-\hat{y})$ 公式4

我们希望 $P (y ∣ x)$ 越大越好，即让负值 $=-\log P(y | x)$ 越小越好，得到损失函数为：

$\log \hat{y}+(1-y) \log (1-\hat{y})]$ 公式5

多个样本的概率即联合概率，等于每个的乘积。

$\begin{array}{l}{p(y | x)=\prod_{i}^{m} p\left(y^{(i)} | x^{(i)}\right)} \\ {\log p(y | x)=\sum_{i}^{m} \log p\left(y^{(i)} | x^{(i)}\right)}\end{array}$

由公式4和公式5得到

$\begin{aligned} \log p\left(y^{(i)} | x^{(i)}\right) &=-L\left(y^{(i)} | x^{(i)}\right) \\ \log p\left(y^{(i)} | x^{(i)}\right) &=-\sum_{i}^{m} L\left(y^{(i)} | x^{(i)}\right) \end{aligned}$

加上 $\frac{1}{m}$ 对式子进行缩放，便于计算。

$\operatorname{cost}(\min ) : J(w, b)=\frac{1}{m} \sum_{i}^{m} L\left(y^{(i)} | x^{(i)}\right)$

或者写作：

$J=-\frac{1}{m} \Sigma_{i=1}^{m}\left[y^{(i)} \log \hat{y}^{(i)}+\left(1-y^{(i)}\right) \log \left(1-\hat{y}^{(i)}\right)\right]$

相对熵

K-L散度

用来衡量两个概率分布之间的差异。设有两个概率分布p(x)和q(x),则p对q的相对熵：

$\| q)=\sum_{x} p(x) \log \frac{p(x)}{q(x)}$

互信息

两个随机变量X,Y的互信息，定义为X,Y的联合分布和独立分布乘积的相对熵。

$\begin{array}{l}{I(X, Y)=D(p(x, y) \| p(x) p(y))} \\ {=\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)}}\end{array}$

或是：

$\begin{array}{l}{H(Y | X)=H(X, Y)-H(X)=H(Y)-I(X, Y)} \\ {I(X, Y)=H(X)+H(Y)-H(X, Y)}\end{array}$

总结：

$\left\{\begin{array}{l}{p(A | B)=\frac{p(A B)}{P(B)}} \\ {p(A B)=p(A | B) P(B)}\end{array}\right.$

`LR` （逻辑回归）

逻辑回归本质上是线性回归，只是在特征到结果的映射中加入了一层逻辑函数 $g (z)$ ,即先把特征线性求和，然后使用函数g(z)作为假设函数来预测。

其推到：

g(z)可以将连续值映射到0 和1。g(z)为sigmoid function.

$g(z)=\frac{1}{1+e^{-z}}$

则：

$h_{\theta}(x)=g\left(\theta^{T} x\right)=\frac{1}{1+e^{-\theta^{r} x}}$

sigmoid function 的导数如下：

$\begin{aligned} g^{\prime}(z) &=\frac{d}{d z} \frac{1}{1+e^{-z}} \\ &=\frac{1}{\left(1+e^{-z}\right)^{2}}\left(e^{-z}\right) \\ &=\frac{1}{\left(1+e^{-z}\right)} \cdot\left(1-\frac{1}{\left(1+e^{-z}\right)}\right) \\ &=g(z)(1-g(z)) \end{aligned}$

逻辑回归用来分类0/1 问题，也就是预测结果属于0或者1的二值分类问题。这里假设了二值满足伯努利分布，也就是:

$\begin{array}{l}{P(y=1 | x ; \theta)=h_{\theta}(x)} \\ {P(y=0 | x ; \theta)=1-h_{\theta}(x)}\end{array}$

其也可以写成如下的形式：

$\theta)=\left(h_{\theta}(x)\right)^{y}\left(1-h_{\theta}(x)\right)^{1-y}$

对于训练数据集，特征数据x={x1, x2, … , xm}和对应的分类标签y={y1, y2, … , ym}，假设m个样本是相互独立的，那么，极大似然函数为：

$\begin{aligned} L(\theta) &=p(\vec{y} | X ; \theta) \\ &=\prod_{i=1}^{m} p\left(y^{(i)} | x^{(i)} ; \theta\right) \\ &=\prod_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)\right)^{y^{(i)}}\left(1-h_{\theta}\left(x^{(i)}\right)\right)^{1-y^{(n)}} \end{aligned}$

log似然为：

$\begin{aligned} \ell(\theta) &=\log L(\theta) \\ &=\sum_{i=1}^{m} y^{(i)} \log h\left(x^{(i)}\right)+\left(1-y^{(i)}\right) \log \left(1-h\left(x^{(i)}\right)\right) \end{aligned}$

如何使其最大呢？与线性回归类似，我们使用梯度上升的方法（求最小使用梯度下降），那么 $\theta :=\theta+\alpha \nabla_{\theta} \ell(\theta)$

$\begin{aligned} \frac{\partial}{\partial \theta_{j}} \ell(\theta) &=\left(y \frac{1}{g\left(\theta^{T} x\right)}-(1-y) \frac{1}{1-g\left(\theta^{T} x\right)}\right) \frac{\partial}{\partial \theta_{j}} g\left(\theta^{T} x\right) \\ &=\left(y \frac{1}{g\left(\theta^{T} x\right)}-(1-y) \frac{1}{1-g\left(\theta^{T} x\right)}\right) g\left(\theta^{T} x\right)\left(1-g\left(\theta^{T} x\right) \frac{\partial}{\partial \theta_{j}} \theta^{T} x\right.\\ &=\left(y\left(1-g\left(\theta^{T} x\right)\right)-(1-y) g\left(\theta^{T} x\right)\right) x_{j} \\ &=\left(y-h_{\theta}(x)\right) x_{j} \end{aligned}$

如果只用一个训练样例（x，y），采用随机梯度上升规则，那么随机梯度上升更新规则为：

$\theta_{j} :=\theta_{j}+\alpha\left(y^{(i)}-h_{\theta}\left(x^{(i)}\right)\right) x_{j}^{(i)}$

损失函数：

$\mathrm{J}(\mathrm{w}, \mathrm{b})=\frac{1}{\mathrm{m}} \sum_{\mathrm{i}=1}^{\mathrm{m}} \mathrm{L}\left(\mathrm{y}^{(\mathrm{i})}, \mathrm{y}^{(\mathrm{i})}\right)=\frac{1}{\mathrm{m}} \sum_{\mathrm{i}=1}^{\mathrm{m}}\left(-\mathrm{y} \log \left(\hat{y}^{(\mathrm{i})}\right)-\left(1-\mathrm{y}^{(\mathrm{i})}\right) \log \left(1-\hat{\mathrm{y}}^{(\mathrm{i})}\right)\right)$

逻辑回归怎么实现多分类

修改逻辑回归的损失函数,使用softmax函数构造模型解决多分类问题,softmax分类模型会有相同于类别数的输出,输出的值为对于样本属于各个类别的概率,最后对于样本进行预测的类型为概率值最高的那个类别。

什么是支持向量机,`SVM`与`LR`的区别?

支持向量机为一个二分类模型,它的基本模型定义为特征空间上的间隔最大的线性分类器。而它的学习策略为最大化分类间隔,最终可转化为凸二次规划问题求解。
LR是参数模型,SVM为非参数模型。LR采用的损失函数为logisticalloss,而SVM采用的是hingeloss。在学习分类器的时候,SVM只考虑与分类最相关的少数支持向量点。LR的模型相对简单,在进行大规模线性分类时比较方便。