仅供学习使用
《推荐系统与深度学习》,黄昕等,清华大学出版社
2.2.3 反向传播
链式法则
2.2.4 优化算法
2.2.4.1 网络参数初始化
-
高斯分布初始化
-
均匀分布初始化
-
Xavier初始化
2.2.4.2 学习率的选择
- 模拟退火算法
– 反向衰减学习率
θ ( t ) = η 0 1 + t ⋅ γ \theta (t)=\frac{\eta _{0}}{1+t\cdot \gamma } θ(t)=1+t⋅γη0
η 0 \eta _{0} η0是初始学习率, γ \gamma γ是衰减系数, t t t是迭代次数
– 指数衰减学习率
θ ( t ) = η 0 e x p ( t ⋅ γ ) \theta (t)=\frac{\eta _{0}}{exp(t\cdot \gamma) } θ(t)=exp(t⋅γ)η0 - 动量方法
- RMSprop
- 自适应矩估计
2.3 卷积神经网络
卷积层、池化层
常见网络结构:
- LeNet-5 1998, LeCun
- AlexNet 2012,Hinton
2.4 循环神经网络
h
t
=
t
a
n
h
(
W
h
h
h
t
−
1
+
W
x
h
x
t
+
b
h
)
h_{t}=tanh(W_{hh}h_{t-1}+W_{xh}x_{t}+b_{h})
ht=tanh(Whhht−1+Wxhxt+bh)
z
t
=
s
o
f
t
m
a
x
(
W
h
z
h
t
+
b
z
)
z_{t}=softmax(W_{hz}h_{t}+b_{z})
zt=softmax(Whzht+bz)
2.4.1 时序反向传播算法
- 梯度消失
- 梯度爆炸
2.4.2长短时记忆网络
LSTM 2009
2.5 生成对抗
无监督学习
2.5.1 对抗博弈
2.5.3 常见的生成对抗网络
- CGAN
- DCGAN
- GGAN
- SeqGAN