神经网络模型与图像分类:原理、方法及应用
1. 层次化专家混合模型与单隐藏层MLP练习
1.1 层次化专家混合模型(Hierarchical MOEs)
当每个专家本身就是一个专家混合(MoE)模型时,所得到的模型被称为层次化专家混合模型。可以将具有L层的层次化专家混合模型看作是深度为L的“软”决策树,每个示例会通过树的每个分支,最终预测结果是加权平均值。
1.2 单隐藏层MLP的反向传播练习
考虑以下具有一个隐藏层的分类MLP:
- (x = input)
- (z = Wx + b_1)
- (h = ReLU(z))
- (a = Uh + b_2)
- (p = S(a))
- (L = CrossEntropy(y, p))
其中,(x \in R^{D×1}),(b_1 \in R^{K×1}),(W \in R^{K×D}),(b_2 \in R^{C×1}),(U \in R^{C×K}),(D)是输入大小,(K)是隐藏单元数量,(C)是类别数量。参数和输入的梯度如下:
- (\frac{\partial L}{\partial U} = \delta_1h^T)
- (\frac{\partial L}{\partial b_2} = \delta_1)
- (\frac{\partial L}{\partial W} = \delta_2x^T)
- (\frac{\partial L}{\partial b_1} = \delta_2)
- (\frac{\partial L}{\partial x} = \delta
超级会员免费看
订阅专栏 解锁全文


被折叠的 条评论
为什么被折叠?



