- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 梯度消失的原理与残差连接的解决机制
残差连接就像给神经网络加了一条“反馈专用通道”,防止深层网络的反馈信号在传播过程中消失,让底层参数也能学到东西。残差连接通过重构梯度传播路径,以“梯度加和”替代“梯度连乘”,从根本上解决了深度网络的梯度消失问题。其设计融合了数学洞察(恒等映射的导数特性)、工程实践(Bottleneck 结构)与实验验证(梯度可视化),成为现代深度学习的基石。从 ResNet 到 Transformer,残差思想已被广泛应用于计算机视觉、自然语言处理等领域,推动模型深度与性能的持续突破。
2025-02-24 14:25:33
822
原创 Transformer自注意力机制中Wq等权重矩阵的智能性
指数运算放大显著差异,使模型聚焦关键关联(如"wolf"占97%权重)。探照灯随机扫描(未训练矩阵),可能照到不相关的“rabbit”。的小数值矩阵(如高斯分布采样),相当于"未经训练的直觉"。( W^Q, W^K, W^V ) 在训练前为。最终学会将光束聚焦到“wolf”的特征区域。每次照错目标时,系统记录误差(损失函数)自动调整灯头旋转参数 (
2025-02-23 16:51:02
981
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人