梯度下降
Momentum
参考了物理中动量的概念。前几次的梯度也会参与到当前的计算中,但是前几轮的梯度叠加会有衰减。
tf.train.MomentumOptimizer(learning_rate=0.01,momentum=0.9)
SGD
随机梯度下降,每一次迭代计算数据集的min-batch的梯度,然后对参数更新。
tf.train.GradientDescentOptimizer(learning_rate=0.01)
Adma(适应性动量估计法)
:寻找的是局部最优,相比于SGD
,它速度更快。
tf.train.AdmaOptimizer(lerning_rate=0.01,beta1=0.9,beta2=0.999,epsilon=1e-08)
范数
L1范数(或L1正则化)
:
∥
X
∥
0
=
∑
i
=
0
n
∣
X
i
∣
\|X\|_{0}=\sum_{i=0}^{n}\left|X_{i}\right|
∥X∥0=∑i=0n∣Xi∣ ,表示向量x
中的非0元素的绝对值之和。
L2范数(或L2正则化)
:
∥
x
∥
2
:
=
∑
i
=
1
n
x
i
2
\|x\|_{2} :=\sqrt{\sum_{i=1}^{n} x_{i}^{2}}
∥x∥2:=∑i=1nxi2 表示向量元素的平方和再开平方。
L1正则在某些点不可导说明
f(x)=|x| 在0处是连续的,但是不可导
连续是左极限=右极限。
可导是左导数=右导数。
怎么解决这个问题呢?
proximal operator(最近邻操作)
:
(
prox
t
i
h
(
x
)
)
i
=
{
x
i
−
λ
t
k
x
i
≥
λ
t
k
0
∣
x
i
∣
≤
λ
t
k
∣
x
i
+
λ
t
k
x
i
≤
−
λ
t
k
\left(\operatorname{prox}_{t_{i} h}(x)\right)_{i}=\left\{\begin{array}{ll}{x_{i}-\lambda t_{k}} & {x_{i} \geq \lambda t_{k}} \\ {0} & {\left|\mathrm{x}_{i}\right| \leq \lambda t_{k} |} \\ {x_{i}+\lambda t_{k}} & {x_{i} \leq-\lambda t_{k}}\end{array}\right.
(proxtih(x))i=⎩⎨⎧xi−λtk0xi+λtkxi≥λtk∣xi∣≤λtk∣xi≤−λtk
sigmoid
函数特性
S ( x ) = 1 1 + e − x S(x)=\frac{1}{1+e^{-x}} S(x)=1+e−x1
- 定义域: ( − ∞ , + ∞ ) (-\infty,+\infty) (−∞,+∞)
- 值域: ( − 1 , 1 ) (-1,1) (−1,1)
- 处处可导: f ′ ( x ) = f ( x ) ( 1 − f ( x ) ) f^{\prime}(x)=f(x)(1-f(x)) f′(x)=f(x)(1−f(x))
切比雪夫不等式 (不会)
设随机变量X具有数学期望 E ( X ) = μ E(X)=\mu E(X)=μ , 方差 D ( X ) = σ 2 D(X)=\sigma^{2} D(X)=σ2 ,对于任意 ε > 0 \varepsilon>0 ε>0,都有 P { ∣ X − μ ∣ ≥ ε } ≤ σ 2 ε 2 P\{|X-\mu| \geq \varepsilon\} \leq \frac{\sigma^{2}}{\varepsilon^{2}} P{∣X−μ∣≥ε}≤ε2σ2 === P { ∣ X − μ ∣ < ε } ≥ 1 − σ 2 ε 2 P\{|X-\mu|<\varepsilon\} \geq 1-\frac{\sigma^{2}}{\varepsilon^{2}} P{∣X−μ∣<ε}≥1−ε2σ2
最大似然估计和最大后验概率
尊重知识产权:
详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解
最大似然估计(MLE)
利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。或是提供了一种给定观察数据来评估模型参数的方法,而最大似然估计中的采样满足所有采样都是独立同分布的假设。
最大后验概率(MAP)
与最大似然估计最大的不同是最大后验概率融入了要估计量的先验分布在其中
共轭先验分布
假设 θ \mathrm{\theta} θ为总体分布中的参数, θ \mathrm{\theta} θ的先验密度函数为 π ( θ ) \pi(\theta) π(θ),而抽样信息算得的后验密度函数与 π ( θ ) \pi(\theta) π(θ)具有相同的函数形式,则称 π ( θ ) \pi(\theta) π(θ)为 θ \mathrm{\theta} θ共轭先验分布。
概率和似然的区别
概率是指在给定参数 θ \mathrm{\theta} θ的情况下,样本的随机向量X=x的可能性。而似然表示的是在给定样本X=x的情况下,参数 θ \mathrm{\theta} θ为真实值的可能性。一般情况,对随机变量的取值用概率表示。而在非贝叶斯统计的情况下,参数为一个实数而不是随机变量,一般用似然来表示。
欧拉公式
e i x = cos x + i sin x e^{i x}=\cos x+i \sin x eix=cosx+isinx
阵正定性的判断,Hessian矩阵正定性在梯度下降中的应用
若矩阵所有特征值均不小于0,则判定为半正定。若矩阵所有特征值均大于0,则判定为正定。在判断优化算法的可行性时Hessian矩阵的正定性起到了很大的作用,若Hessian正定,则函数的二阶偏导恒大于0,函数的变化率处于递增状态,在牛顿法等梯度下降的方法中,Hessian矩阵的正定性可以很容易的判断函数是否可收敛到局部或全局最优解。
熵
尊重知识产权:
信息量
某事件发生的概率小,则该事件的信息量大。
定义随机变量X
的概率分布为P(X)
,X
的信息量为:
h
(
X
)
=
−
log
2
P
(
X
)
h(X)=-\log _{2} P(X)
h(X)=−log2P(X)
熵
就是求期望
H ( X ) = − ∑ x ∈ X P ( x ) log P ( x ) H(X)=-\sum_{x \in X} P(x) \log P(x) H(X)=−∑x∈XP(x)logP(x)
当对数底数是2
时,单位是bit
,当对数底数是e
时,单位是nat
(奈特)。同时,若P(x)=0P(x)=0
,则定义0log0=0
。由熵定义可知,随机变量的熵只依赖于X
的分布,而与XX的取值无关。 熵表示的是随机变量不确定性的度量。熵越大,随机变量的不确定性也就越大。
两点熵的分布
H ( X ) = − ∑ x ∈ X P ( x ) log P ( x ) = − p log 2 p − ( 1 − p ) log 2 ( 1 − p ) H(X)=-\sum_{x \in X} P(x) \log P(x)=-p \log _{2} p-(1-p) \log _{2}(1-p) H(X)=−∑x∈XP(x)logP(x)=−plog2p−(1−p)log2(1−p)
正态分布
f ( x ) = 1 2 π σ e − ( x − μ ) 2 σ 2 f(x)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{(x-\mu)}{2 \sigma^{2}}} f(x)=2πσ1e−2σ2(x−μ)
联合熵
设随机变量(X,Y)
,其联合概率分布是:
P
(
X
=
x
i
,
Y
=
y
j
)
=
p
(
x
i
,
y
j
)
=
p
i
j
,
i
=
1
,
2
,
⋯
 
,
n
;
j
=
1
,
2
,
⋯
 
,
m
P\left(X=x_{i}, Y=y_{j}\right)=p\left(x_{i}, y_{j}\right)=p_{i j}, i=1,2, \cdots, n ; j=1,2, \cdots, m
P(X=xi,Y=yj)=p(xi,yj)=pij,i=1,2,⋯,n;j=1,2,⋯,m
联合熵为 H ( X , Y ) = − ∑ x , y P ( x , y ) log P ( x , y ) H(X, Y)=-\sum_{x, y} P(x, y) \log P(x, y) H(X,Y)=−∑x,yP(x,y)logP(x,y)
条件熵
H ( Y ∣ X ) = H ( X , Y ) − H ( X ) H(Y | X)=H(X, Y)-H(X) H(Y∣X)=H(X,Y)−H(X)
- 条件熵表示在已知随机变量
X
的条件下随机变量Y
的不确定性。
H ( Y ∣ X ) = H ( X , Y ) − H ( X ) = − ∑ x , y P ( x , y ) log P ( x , y ) + ∑ x P ( x ) log P ( x ) = − ∑ x , y P ( x , y ) log P ( x , y ) + ∑ x ( ∑ y P ( x , y ) ) log P ( x ) = − ∑ x , y P ( x , y ) log P ( x , y ) + ∑ x ∑ y P ( x , y ) log P ( x ) = − ∑ x , y P ( x , y ) log P ( x , y ) P ( x ) = − ∑ x , y P ( x , y ) log P ( y ∣ x ) = − ∑ x P ( x ) ∑ y P ( y ∣ x ) log P ( y ∣ x ) = ∑ x P ( x ) ( − ∑ y P ( y ∣ x ) log P ( y ∣ x ) ) = ∑ x P ( x ) H ( Y ∣ X = x ) \begin{array}{l}{H(Y | X)=H(X, Y)-H(X)} \\ {=-\sum_{x, y} P(x, y) \log P(x, y)+\sum_{x} P(x) \log P(x)} \\ {=-\sum_{x, y} P(x, y) \log P(x, y)+\sum_{x}\left(\sum_{y} P(x, y)\right) \log P(x)} \\ {=-\sum_{x, y} P(x, y) \log P(x, y)+\sum_{x} \sum_{y} P(x, y) \log P(x)} \\ {=-\sum_{x, y} P(x, y) \log \frac{P(x, y)}{P(x)}} \\ {=-\sum_{x, y} P(x, y) \log P(y | x)}{=-\sum_{x} P(x) \sum_{y} P(y | x) \log P(y | x)} \\ {=\sum_{x} P(x)\left(-\sum_{y} P(y | x) \log P(y | x)\right)} \\ {=\sum_{x} P(x) H(Y | X=x)}\end{array} H(Y∣X)=H(X,Y)−H(X)=−∑x,yP(x,y)logP(x,y)+∑xP(x)logP(x)=−∑x,yP(x,y)logP(x,y)+∑x(∑yP(x,y))logP(x)=−∑x,yP(x,y)logP(x,y)+∑x∑yP(x,y)logP(x)=−∑x,yP(x,y)logP(x)P(x,y)=−∑x,yP(x,y)logP(y∣x)=−∑xP(x)∑yP(y∣x)logP(y∣x)=∑xP(x)(−∑yP(y∣x)logP(y∣x))=∑xP(x)H(Y∣X=x)
H(Y|X)
)定义为X
给定的条件下Y
的条件概率分布的熵对X
的数学期望。
交叉熵
输出标签表示为{0,1}
时,损失函数表达式为:
L = − [ y log y ^ + ( 1 − y ) log ( 1 − y ^ ) ] L=-[y \log \hat{y}+(1-y) \log (1-\hat{y})] L=−[ylogy^+(1−y)log(1−y^)]
多个样本的表达式是:
取对数:
log p ( y ∣ x ) = y log y ^ + ( 1 − y ) log ( 1 − y ^ ) \log p(y | x)=y \log \hat{y}+(1-y) \log (1-\hat{y}) logp(y∣x)=ylogy^+(1−y)log(1−y^) 公式4
我们希望 P ( y ∣ x ) P(y | x) P(y∣x) 越大越好,即让负值 = − log P ( y ∣ x ) =-\log P(y | x) =−logP(y∣x)越小越好,得到损失函数为:
L = − [ y log y ^ + ( 1 − y ) log ( 1 − y ^ ) ] L=-[y \log \hat{y}+(1-y) \log (1-\hat{y})] L=−[ylogy^+(1−y)log(1−y^)] 公式5
多个样本的概率即联合概率,等于每个的乘积。
p ( y ∣ x ) = ∏ i m p ( y ( i ) ∣ x ( i ) ) log p ( y ∣ x ) = ∑ i m log p ( y ( i ) ∣ x ( i ) ) \begin{array}{l}{p(y | x)=\prod_{i}^{m} p\left(y^{(i)} | x^{(i)}\right)} \\ {\log p(y | x)=\sum_{i}^{m} \log p\left(y^{(i)} | x^{(i)}\right)}\end{array} p(y∣x)=∏imp(y(i)∣x(i))logp(y∣x)=∑imlogp(y(i)∣x(i))
由公式4和公式5得到
log p ( y ( i ) ∣ x ( i ) ) = − L ( y ( i ) ∣ x ( i ) ) log p ( y ( i ) ∣ x ( i ) ) = − ∑ i m L ( y ( i ) ∣ x ( i ) ) \begin{aligned} \log p\left(y^{(i)} | x^{(i)}\right) &=-L\left(y^{(i)} | x^{(i)}\right) \\ \log p\left(y^{(i)} | x^{(i)}\right) &=-\sum_{i}^{m} L\left(y^{(i)} | x^{(i)}\right) \end{aligned} logp(y(i)∣x(i))logp(y(i)∣x(i))=−L(y(i)∣x(i))=−i∑mL(y(i)∣x(i))
加上 1 m \frac{1}{m} m1对式子进行缩放,便于计算。
cost ( min ) : J ( w , b ) = 1 m ∑ i m L ( y ( i ) ∣ x ( i ) ) \operatorname{cost}(\min ) : J(w, b)=\frac{1}{m} \sum_{i}^{m} L\left(y^{(i)} | x^{(i)}\right) cost(min):J(w,b)=m1∑imL(y(i)∣x(i))
或者写作:
J = − 1 m Σ i = 1 m [ y ( i ) log y ^ ( i ) + ( 1 − y ( i ) ) log ( 1 − y ^ ( i ) ) ] J=-\frac{1}{m} \Sigma_{i=1}^{m}\left[y^{(i)} \log \hat{y}^{(i)}+\left(1-y^{(i)}\right) \log \left(1-\hat{y}^{(i)}\right)\right] J=−m1Σi=1m[y(i)logy^(i)+(1−y(i))log(1−y^(i))]
相对熵
K-L散度
用来衡量两个概率分布之间的差异。 设有两个概率分布p(x)
和q(x)
,则p
对q
的相对熵:
D ( p ∥ q ) = ∑ x p ( x ) log p ( x ) q ( x ) D(p \| q)=\sum_{x} p(x) \log \frac{p(x)}{q(x)} D(p∥q)=∑xp(x)logq(x)p(x)
互信息
两个随机变量X
,Y
的互信息,定义为X
,Y
的联合分布和独立分布乘积的相对熵。
I ( X , Y ) = D ( p ( x , y ) ∥ p ( x ) p ( y ) ) = ∑ x , y p ( x , y ) log p ( x , y ) p ( x ) p ( y ) \begin{array}{l}{I(X, Y)=D(p(x, y) \| p(x) p(y))} \\ {=\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)}}\end{array} I(X,Y)=D(p(x,y)∥p(x)p(y))=∑x,yp(x,y)logp(x)p(y)p(x,y)
或是:
H ( Y ∣ X ) = H ( X , Y ) − H ( X ) = H ( Y ) − I ( X , Y ) I ( X , Y ) = H ( X ) + H ( Y ) − H ( X , Y ) \begin{array}{l}{H(Y | X)=H(X, Y)-H(X)=H(Y)-I(X, Y)} \\ {I(X, Y)=H(X)+H(Y)-H(X, Y)}\end{array} H(Y∣X)=H(X,Y)−H(X)=H(Y)−I(X,Y)I(X,Y)=H(X)+H(Y)−H(X,Y)
总结:
{ p ( A ∣ B ) = p ( A B ) P ( B ) p ( A B ) = p ( A ∣ B ) P ( B ) \left\{\begin{array}{l}{p(A | B)=\frac{p(A B)}{P(B)}} \\ {p(A B)=p(A | B) P(B)}\end{array}\right. {p(A∣B)=P(B)p(AB)p(AB)=p(A∣B)P(B)
LR
(逻辑回归)
逻辑回归本质上是线性回归,只是在特征到结果的映射中加入了一层逻辑函数
g
(
z
)
g(z)
g(z),即先把特征线性求和,然后使用函数g(z)
作为假设函数来预测。
其推到:
g(z)
可以将连续值映射到0
和1
。g(z)
为sigmoid function
.
g ( z ) = 1 1 + e − z g(z)=\frac{1}{1+e^{-z}} g(z)=1+e−z1
则:
h θ ( x ) = g ( θ T x ) = 1 1 + e − θ r x h_{\theta}(x)=g\left(\theta^{T} x\right)=\frac{1}{1+e^{-\theta^{r} x}} hθ(x)=g(θTx)=1+e−θrx1
sigmoid function
的导数如下:
g ′ ( z ) = d d z 1 1 + e − z = 1 ( 1 + e − z ) 2 ( e − z ) = 1 ( 1 + e − z ) ⋅ ( 1 − 1 ( 1 + e − z ) ) = g ( z ) ( 1 − g ( z ) ) \begin{aligned} g^{\prime}(z) &=\frac{d}{d z} \frac{1}{1+e^{-z}} \\ &=\frac{1}{\left(1+e^{-z}\right)^{2}}\left(e^{-z}\right) \\ &=\frac{1}{\left(1+e^{-z}\right)} \cdot\left(1-\frac{1}{\left(1+e^{-z}\right)}\right) \\ &=g(z)(1-g(z)) \end{aligned} g′(z)=dzd1+e−z1=(1+e−z)21(e−z)=(1+e−z)1⋅(1−(1+e−z)1)=g(z)(1−g(z))
逻辑回归用来分类0/1
问题,也就是预测结果属于0
或者1
的二值分类问题。这里假设了二值满足伯努利分布
,也就是:
P ( y = 1 ∣ x ; θ ) = h θ ( x ) P ( y = 0 ∣ x ; θ ) = 1 − h θ ( x ) \begin{array}{l}{P(y=1 | x ; \theta)=h_{\theta}(x)} \\ {P(y=0 | x ; \theta)=1-h_{\theta}(x)}\end{array} P(y=1∣x;θ)=hθ(x)P(y=0∣x;θ)=1−hθ(x)
其也可以写成如下的形式:
p ( y ∣ x ; θ ) = ( h θ ( x ) ) y ( 1 − h θ ( x ) ) 1 − y p(y | x ; \theta)=\left(h_{\theta}(x)\right)^{y}\left(1-h_{\theta}(x)\right)^{1-y} p(y∣x;θ)=(hθ(x))y(1−hθ(x))1−y
对于训练数据集,特征数据x={x1, x2, … , xm}
和对应的分类标签y={y1, y2, … , ym}
,假设m
个样本是相互独立的,那么,极大似然函数为:
L ( θ ) = p ( y ⃗ ∣ X ; θ ) = ∏ i = 1 m p ( y ( i ) ∣ x ( i ) ; θ ) = ∏ i = 1 m ( h θ ( x ( i ) ) ) y ( i ) ( 1 − h θ ( x ( i ) ) ) 1 − y ( n ) \begin{aligned} L(\theta) &=p(\vec{y} | X ; \theta) \\ &=\prod_{i=1}^{m} p\left(y^{(i)} | x^{(i)} ; \theta\right) \\ &=\prod_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)\right)^{y^{(i)}}\left(1-h_{\theta}\left(x^{(i)}\right)\right)^{1-y^{(n)}} \end{aligned} L(θ)=p(y∣X;θ)=i=1∏mp(y(i)∣x(i);θ)=i=1∏m(hθ(x(i)))y(i)(1−hθ(x(i)))1−y(n)
log
似然为:
ℓ ( θ ) = log L ( θ ) = ∑ i = 1 m y ( i ) log h ( x ( i ) ) + ( 1 − y ( i ) ) log ( 1 − h ( x ( i ) ) ) \begin{aligned} \ell(\theta) &=\log L(\theta) \\ &=\sum_{i=1}^{m} y^{(i)} \log h\left(x^{(i)}\right)+\left(1-y^{(i)}\right) \log \left(1-h\left(x^{(i)}\right)\right) \end{aligned} ℓ(θ)=logL(θ)=i=1∑my(i)logh(x(i))+(1−y(i))log(1−h(x(i)))
如何使其最大呢?与线性回归类似,我们使用梯度上升的方法(求最小使用梯度下降),那么 θ : = θ + α ∇ θ ℓ ( θ ) \theta :=\theta+\alpha \nabla_{\theta} \ell(\theta) θ:=θ+α∇θℓ(θ)
∂ ∂ θ j ℓ ( θ ) = ( y 1 g ( θ T x ) − ( 1 − y ) 1 1 − g ( θ T x ) ) ∂ ∂ θ j g ( θ T x ) = ( y 1 g ( θ T x ) − ( 1 − y ) 1 1 − g ( θ T x ) ) g ( θ T x ) ( 1 − g ( θ T x ) ∂ ∂ θ j θ T x = ( y ( 1 − g ( θ T x ) ) − ( 1 − y ) g ( θ T x ) ) x j = ( y − h θ ( x ) ) x j \begin{aligned} \frac{\partial}{\partial \theta_{j}} \ell(\theta) &=\left(y \frac{1}{g\left(\theta^{T} x\right)}-(1-y) \frac{1}{1-g\left(\theta^{T} x\right)}\right) \frac{\partial}{\partial \theta_{j}} g\left(\theta^{T} x\right) \\ &=\left(y \frac{1}{g\left(\theta^{T} x\right)}-(1-y) \frac{1}{1-g\left(\theta^{T} x\right)}\right) g\left(\theta^{T} x\right)\left(1-g\left(\theta^{T} x\right) \frac{\partial}{\partial \theta_{j}} \theta^{T} x\right.\\ &=\left(y\left(1-g\left(\theta^{T} x\right)\right)-(1-y) g\left(\theta^{T} x\right)\right) x_{j} \\ &=\left(y-h_{\theta}(x)\right) x_{j} \end{aligned} ∂θj∂ℓ(θ)=(yg(θTx)1−(1−y)1−g(θTx)1)∂θj∂g(θTx)=(yg(θTx)1−(1−y)1−g(θTx)1)g(θTx)(1−g(θTx)∂θj∂θTx=(y(1−g(θTx))−(1−y)g(θTx))xj=(y−hθ(x))xj
如果只用一个训练样例(x,y)
,采用随机梯度上升规则,那么随机梯度上升更新规则为:
θ j : = θ j + α ( y ( i ) − h θ ( x ( i ) ) ) x j ( i ) \theta_{j} :=\theta_{j}+\alpha\left(y^{(i)}-h_{\theta}\left(x^{(i)}\right)\right) x_{j}^{(i)} θj:=θj+α(y(i)−hθ(x(i)))xj(i)
损失函数:
J ( w , b ) = 1 m ∑ i = 1 m L ( y ( i ) , y ( i ) ) = 1 m ∑ i = 1 m ( − y log ( y ^ ( i ) ) − ( 1 − y ( i ) ) log ( 1 − y ^ ( i ) ) ) \mathrm{J}(\mathrm{w}, \mathrm{b})=\frac{1}{\mathrm{m}} \sum_{\mathrm{i}=1}^{\mathrm{m}} \mathrm{L}\left(\mathrm{y}^{(\mathrm{i})}, \mathrm{y}^{(\mathrm{i})}\right)=\frac{1}{\mathrm{m}} \sum_{\mathrm{i}=1}^{\mathrm{m}}\left(-\mathrm{y} \log \left(\hat{y}^{(\mathrm{i})}\right)-\left(1-\mathrm{y}^{(\mathrm{i})}\right) \log \left(1-\hat{\mathrm{y}}^{(\mathrm{i})}\right)\right) J(w,b)=m1∑i=1mL(y(i),y(i))=m1∑i=1m(−ylog(y^(i))−(1−y(i))log(1−y^(i)))
逻辑回归怎么实现多分类
修改逻辑回归的损失函数,使用softmax
函数构造模型解决多分类问题,softmax
分类模型会有相同于类别数的输出,输出的值为对于样本属于各个类别的概率,最后对于样本进行预测的类型为概率值最高的那个类别。
什么是支持向量机,SVM
与LR
的区别?
- 支持向量机为一个二分类模型,它的基本模型定义为特征空间上的间隔最大的线性分类器。而它的学习策略为最大化分类间隔,最终可转化为凸二次规划问题求解。
LR
是参数模型,SVM
为非参数模型。LR
采用的损失函数为logisticalloss
,而SVM
采用的是hingeloss
。在学习分类器的时候,SVM
只考虑与分类最相关的少数支持向量点。LR
的模型相对简单,在进行大规模线性分类时比较方便。
SVM
(候补)
尊重知识产权:
机器学习中的距离计算方法?
设空间中两个点为(x1,y1),(x2,y2)
欧式距离:
( x 1 − x 2 ) 2 + ( y 1 − y 2 ) 2 \sqrt{\left(x_{1}-x_{2}\right)^{2}+\left(y_{1}-y_{2}\right)^{2}} (x1−x2)2+(y1−y2)2
曼哈顿距离:
∣ x 1 − x 2 ∣ + ∣ y 1 − y 2 ∣ \left|x_{1}-x_{2}\right|+\left|y_{1}-y_{2}\right| ∣x1−x2∣+∣y1−y2∣
余弦距离:
x 1 ∗ x 2 + y 1 ∗ y 2 x 1 2 + y 1 2 ∗ x 2 2 + y 2 2 \frac{x_{1} * x_{2}+y_{1} * y_{2}}{\sqrt{x_{1}^{2}+y_{1}^{2}} * \sqrt{x_{2}^{2}+y_{2}^{2}}} x12+y12∗x22+y22x1∗x2+y1∗y2
切比雪夫距离:
max ( ∣ x 2 − x 1 ∣ , ∣ y 2 − y 1 ∣ ) \max (|x 2-x 1|,|y 2-y 1|) max(∣x2−x1∣,∣y2−y1∣)
朴素贝叶斯(naive Bayes)
法的要求是?
决策树
聚类
k-means算法
LDA
的原理
推荐算法–FM
随机森林和GBDT
生成模型和判别模型的区别
- 生成模型是先从数据中学习联合概率分布,然后利用贝叶斯公式求得特征和标签对应的条件概率分布。判别模型直接学习条件概率分布,直观的输入什么特征就预测可能的类别。
---------------------------------155-----------------------------