- 博客(4)
- 收藏
- 关注
原创 神经网络课程总结4
主要介绍了循环神经网络(RNN)在自然语言处理(NLP)中的应用,重点讲解了门控循环单元(GRU)、长短期记忆网络(LSTM)、深度循环神经网络和双向循环神经网络的模型结构、工作原理、模型实现以及训练结果对比。- 模型实现:参见《动手学深度学习》9.3节,训练结果显示深度循环神经网络在处理《The Time Machine》文本数据时,相比GRU和LSTM,训练过程更复杂,但能捕捉更复杂的特征。- 总结:LSTM通过遗忘门、输入门和输出门精细控制信息的流动,有效解决长序列依赖问题,参数量是RNN的4倍。
2025-05-26 03:39:42
725
原创 神经网络课程总结3
同时介绍了多种深度学习平台,如TensorFlow、Caffe、PyTorch等,对比了它们在支持语言、支持系统、学习材料丰富程度、CNN和RNN建模能力、易用程度、运行速度及多GPU支持程度等方面的差异,并详细介绍了PyTorch的基本概念和使用方法,包括张量(类似多维数组)、计算图(描述数学计算) ,以及如何用tensor表示数据、用Dataset和DataLoader读取数据、用Variable存储参数等。网络由多个卷积层和池化层组成,遵循一定的设计规则,随网络深入,高和宽衰减,通道数增多。
2025-05-14 14:15:46
273
原创 神经网络课程总结2
它除了加入历史梯度平方的指数衰减平均(类似RMSProp中的r )外,还保留了历史梯度的指数衰减平均(记为s ),这相当于引入了动量的概念。具有较大偏导的参数相应有一个较大的学习率,而具有小偏导的参数则对应一个较小的学习率。过拟合则是模型在训练数据集上误差小,但在测试数据集上误差大,意味着模型过度学习了训练数据中的细节,包括噪声,导致泛化能力变差,无法很好地适应新数据。然而,AdaGrad存在学习率单调递减的问题,在训练后期学习率会过小,导致训练困难,甚至提前结束,并且需要设置一个合适的全局初始学习率。
2025-05-14 14:08:47
708
原创 神经网络课程总结1
多层感知机结构与应用:在输入和输出层间加一或多层隐单元构成多层感知器(多层前馈神经网络),加一层隐节点的三层网络可解决XOR问题。使输出均方误差最小化。从基础的线性回归、分类问题,到复杂的神经元模型、多层网络,再到BP算法的原理和应用,逐步深入。- 多层前馈网络:多层感知机是一种多层前馈网络,由多层神经网络构成,神经元间权值连接仅在相邻层,若每个神经元连接上一层所有神经元(除输入层外)则为全连接网络。- XOR问题:XOR问题是线性不可分问题,无法进行线性分类,Minsky 1969年提出。
2025-05-06 19:04:09
977
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅