抽象神经元相关知识解析
1. 误差函数与梯度下降
1.1 误差函数的定义
误差函数 (E(x, z)) 可被视为 (X) 的经验概率与给定 (X) 时 (Z) 的条件概率的交叉熵,其表达式为 (E(x, z) = E_{p_X}[−\ln P(Z|X)]),其中模型概率 (P(z|X = x) = −\ln \sigma(z(w^T x_i - b)))。
1.2 梯度下降法
由于无法得到 (w^ ) 和 (b^ ) 的闭式解,我们采用梯度下降法来进行近似求解。梯度 (\nabla E) 由两部分组成:(\nabla E = (\nabla_w E, \partial_b E))。
误差函数可写为 (E(x, z) = \sum_{i = 1}^{n} \ln(1 + e^{-(z_i(w^T x_i - b))})),对其求导可得:
- (\nabla_w E = -\sum_{i = 1}^{n} \frac{z_i x_i}{1 + e^{-(z_i w^T x_i - z_i b)}})
- (\partial_b E = \sum_{i = 1}^{n} \frac{z_i}{1 + e^{-(z_i w^T x_i - z_i b)}})
近似序列通过递归定义:
- (w^{(j + 1)} = w^{(j)} - \eta \nabla_w E(w^{(j)}, b^{(j)}))
- (b^{(j + 1)} = b^{(j)} - \eta \partial_b E(w^{(j)}, b^{(j)}))
其中 (\eta > 0
超级会员免费看
订阅专栏 解锁全文
3万+

被折叠的 条评论
为什么被折叠?



