既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新
(
W
)
=
∏
i
=
1
N
∏
j
=
1
K
(
e
W
j
T
X
i
∑
k
=
1
K
e
W
k
T
X
i
)
1
j
(
y
i
)
L(W)=\prod_{i=1}^{N} \prod_{j=1}{K}\left(\frac{e{W j^{T} X_{i}}}{\sum_{k=1}^{K} e{W_{k}{T} X_{i}}}\right)^{1_{j}\left(y_{i}\right)}
L(W)=i=1∏Nj=1∏K(∑k=1KeWkTXieWjTXi)1j(yi)
其中指数部分为指示函数(indicator function),代表当第 i 个 y 的值等于分类j时函数返回 1,不等于时返回 0,如下所示:
1
A
(
x
)
=
{
1
x
∈
A
0
x
∉
A
1_A(x) = \left{\begin{matrix} 1 & x \in A\ 0 & x \notin A \end{matrix}\right.
1A(x)={10x∈Ax∈/A
然后对似然函数取对数后加个负号,就是多分类对数几率回归的代价函数了,我们的目标依然是最小化该代价函数:
Cost
(
W
)
=
−
∑
i
=
1
N
∑
j
=
1
K
1
j
(
y
i
)
ln
(
e
W
j
T
X
i
∑
k
=
1
K
e
W
k
T
X
i
)
\operatorname{Cost}(W)=-\sum_{i=1}^{N} \sum_{j=1}^{K} 1_{j}\left(y_{i}\right) \ln \left(\frac{e^{W j^{T} X_{i}}}{\sum_{k=1}^{K} e{W_{k}{T} X_{i}}}\right)
Cost(W)=−i=1∑Nj=1∑K1j(yi)ln(∑k=1KeWkTXieWjTXi)
该代价函数也是凸函数,依然可以使用梯度下降法进行最小化的优化。
三、原理证明
多分类对数几率回归的代价函数为凸函数
同前面的证明一样,只需证明当函数的黑塞矩阵是半正定的,则该函数就为凸函数。
(1)代价函数对 W 求梯度,推导时需要注意下标
(2)可以将代价函数中的第二个连加操作拆成两个式子,前面一个为连加中的第 j 个式子,后面为连加项但不包括第 j 项,这时的下标用 l 表示
(3)将除法的对数写成对数的减法
(4)第一个连加操作对求梯度不影响,直接写到最外层。指示函数对求梯度也没有影响,利用求导公式分别对后面几项求梯度
(5)整理后可以看到后面两项又可以合成同一个连加
(6)由于 y 的取值必然会在 1 - K 中,指示函数的从 1 - K 连加必然等于 1
∂
Cost
(
W
)
∂
W
j
=
∂
∂
W
j
(
−
∑
i
=
1
N
∑
j
=
1
K
1
j
(
y
i
)
ln
e
W
j
T
X
i
∑
k
=
1
K
e
W
k
T
X
i
)
(
1
)
=
∂
∂
W
j
(
−
∑
i
=
1
N
(
1
j
(
y
i
)
ln
e
W
j
T
X
i
∑
k
=
1
K
e
W
k
T
X
i
∑
l
≠
j
K
1
l
(
y
i
)
ln
e
W
l
T
X
i
∑
k
=
1
K
e
W
k
T
X
i
)
)
(
2
)
=
∂
∂
W
j
(
−
∑
i
=
1
N
(
1
j
(
y
i
)
(
W
j
T
X
i
−
ln
∑
k
=
1
K
e
W
k
T
X
i
)
∑
l
≠
j
K
1
l
(
y
i
)
(
W
l
T
X
i
−
ln
∑
k
=
1
K
e
W
k
T
X
i
)
)
)
(
3
)
=
−
∑
i
=
1
N
(
1
j
(
y
j
)
(
X
i
−
e
W
j
T
X
i
X
i
∑
k
=
1
K
e
W
k
T
X
i
)
∑
l
≠
j
K
1
l
(
y
i
)
(
0
−
e
W
j
T
X
i
X
i
∑
k
=
1
K
e
W
k
T
X
i
)
)
(
4
)
=
−
∑
i
=
1
N
(
X
i
(
1
j
(
y
i
)
−
∑
j
=
1
K
1
j
(
y
i
)
e
W
j
T
X
i
∑
k
=
1
K
e
W
k
T
X
i
)
)
(
5
)
=
−
∑
i
=
1
N
(
X
i
(
1
j
(
y
i
)
−
e
W
j
T
X
i
∑
k
=
1
K
e
W
k
T
X
i
)
)
(
6
)
\begin{aligned} \frac{\partial \operatorname{Cost}(W)}{\partial W_{j}} &=\frac{\partial}{\partial W_{j}}\left(-\sum_{i=1}^{N} \sum_{j=1}^{K} 1_{j}\left(y_{i}\right) \ln \frac{e{W_{j}{T} X_{i}}}{\sum_{k=1}^{K} e{W_{k}{T} X_{i}}}\right) & (1) \ &=\frac{\partial}{\partial W_{j}}\left(-\sum_{i=1}^{N}\left(1_{j}\left(y_{i}\right) \ln \frac{e{W_{j}{T} X_{i}}}{\sum_{k=1}^{K} e{W_{k}{T} X_{i}}}+\sum_{l \neq j}^{K} 1_{l}\left(y_{i}\right) \ln \frac{e{W_{l}{T} X_{i}}}{\sum_{k=1}^{K} e{W_{k}{T} X_{i}}}\right)\right) & (2) \ &=\frac{\partial}{\partial W_{j}}\left(-\sum_{i=1}{N}\left(1_{j}\left(y_{i}\right)\left(W_{j}{T} X_{i}-\ln \sum_{k=1}^{K} e{W_{k}{T} X_{i}}\right)+\sum_{l \neq j}^{K} 1_{l}\left(y_{i}\right)\left(W_{l}^{T} X_{i}-\ln \sum_{k=1}^{K} e{W_{k}{T} X_{i}}\right)\right)\right) & (3) \ &=-\sum_{i=1}{N}\left(1_{j}\left(y_{j}\right)\left(X_{i}-\frac{e{W_{j}^{T} X_{i}} X_{i}}{\sum_{k=1}^{K} e{W_{k}{T} X_{i}}}\right)+\sum_{l \neq j}^{K} 1_{l}\left(y_{i}\right)\left(0-\frac{e{W_{j}{T} X_{i}} X_{i}}{\sum_{k=1}^{K} e{W_{k}{T} X_{i}}}\right)\right) & (4) \ &=-\sum_{i=1}{N}\left(X_{i}\left(1_{j}\left(y_{i}\right)-\sum_{j=1}{K} 1_{j}\left(y_{i}\right) \frac{e{W_{j}{T} X_{i}}}{\sum_{k=1}^{K} e{W_{k}{T} X_{i}}}\right)\right) & (5) \ &=-\sum_{i=1}{N}\left(X_{i}\left(1_{j}\left(y_{i}\right)-\frac{e{W_{j}^{T} X_{i}}}{\sum_{k=1}^{K} e{W_{k}{T} X_{i}}}\right)\right) & (6) \end{aligned}
∂Wj∂Cost(W)=∂Wj∂(−i=1∑Nj=1∑K1j(yi)ln∑k=1KeWkTXieWjTXi)=∂Wj∂⎝⎛−i=1∑N⎝⎛1j(yi)ln∑k=1KeWkTXieWjTXi+l=j∑K1l(yi)ln∑k=1KeWkTXieWlTXi⎠⎞⎠⎞=∂Wj∂⎝⎛−i=1∑N⎝⎛1j(yi)(WjTXi−lnk=1∑KeWkTXi)+l=j∑K1l(yi)(WlTXi−lnk=1∑KeWkTXi)⎠⎞⎠⎞=−i=1∑N⎝⎛1j(yj)(Xi−∑k=1KeWkTXieWjTXiXi)+l=j∑K1l(yi)(0−∑k=1KeWkTXieWjTXiXi)⎠⎞=−i=1∑N(Xi(1j(yi)−j=1∑K1j(yi)∑k=1KeWkTXieWjTXi))=−i=1∑N(Xi(1j(yi)−∑k=1KeWkTXieWjTXi))(1)(2)(3)(4)(5)(6)
(1)代价函数对 W 求黑塞矩阵
(2)第一项对 W 来说为常数,只需对第二项求导
(3)利用求导公式求出对应的导数
(4)整理结果,分子为连加中去掉第 j 项
∂
2
Cost
(
W
)
∂
W
j
∂
W
j
T
=
∂
∂
W
j
(
−
∑
i
=
1
N
(
X
i
(
1
j
(
y
i
)
−
e
W
j
T
X
i
∑
k
=
1
K
e
W
k
T
X
i
)
)
)
(
1
)
=
∑
i
=
1
N
∂
∂
W
j
(
e
W
j
T
X
i
∑
k
=
1
K
e
W
k
T
X
i
X
i
)
(
2
)
=
∑
i
=
1
N
∑
k
=
1
K
e
W
k
T
X
i
e
W
j
T
X
i
X
i
−
e
W
j
T
X
i
e
W
j
T
X
i
X
i
(
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新
∑k=1KeWkTXieWjTXiXi)⎠⎞=−i=1∑N(Xi(1j(yi)−j=1∑K1j(yi)∑k=1KeWkTXieWjTXi))=−i=1∑N(Xi(1j(yi)−∑k=1KeWkTXieWjTXi))(1)(2)(3)(4)(5)(6)
(1)代价函数对 W 求黑塞矩阵
(2)第一项对 W 来说为常数,只需对第二项求导
(3)利用求导公式求出对应的导数
(4)整理结果,分子为连加中去掉第 j 项
∂
2
Cost
(
W
)
∂
W
j
∂
W
j
T
=
∂
∂
W
j
(
−
∑
i
=
1
N
(
X
i
(
1
j
(
y
i
)
−
e
W
j
T
X
i
∑
k
=
1
K
e
W
k
T
X
i
)
)
)
(
1
)
=
∑
i
=
1
N
∂
∂
W
j
(
e
W
j
T
X
i
∑
k
=
1
K
e
W
k
T
X
i
X
i
)
(
2
)
=
∑
i
=
1
N
∑
k
=
1
K
e
W
k
T
X
i
e
W
j
T
X
i
X
i
−
e
W
j
T
X
i
e
W
j
T
X
i
X
i
(
[外链图片转存中…(img-YgJxUlnB-1715511563222)]
[外链图片转存中…(img-EyOmpNyM-1715511563222)]
[外链图片转存中…(img-Rssae3Jg-1715511563222)]
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新