- 博客(8)
- 收藏
- 关注
原创 从transformer到bart
上文我们介绍了transformer的encoder部分并介绍了其延申bert模型,本文将开始介绍transformer的decoder部分同时介绍bart模型。
2025-03-10 18:15:32
725
原创 从transformer到bert
在上文介绍完自注意力机制后,本文介绍基于自注意力机制的transformer架构中的encoder部分,以及由transformer的encoder部分而来的bert模型。
2025-03-07 17:11:11
920
原创 自注意力机制
在进行图像与卷积的学习后,我们知道一张图片可以由RGB三通道的矩阵表示,即图片天然可以由数字表示。那么进入到自然语言处理领域,我们该怎样用数据表示文字并将其输入到模型呢?
2025-03-06 17:08:55
945
原创 day3 线性表示代码
任务背景通过模拟随机生成真实数据x1x2x3x4x1x2x3x4和对应的y′y'y′,通过训练预测系数wbw, bwb。# 定义理想参数num = 500 # 数据规模true_b = torch.tensor(1.1) # torch.tensor为创建张量的函数# 定义原始参数lr = 0.03。
2025-01-04 12:17:50
96
原创 day2 多层神经网络
有模型复杂化(增加神经网络的隐藏层数和隐藏单元数、更换更复杂的算法或模型),增加更多的特征,调整参数和超参数,降低正则化约束。如果没有激活函数,无论网络多么复杂,最后的输出都是输入的线性组合,而纯粹的线性组合并不能解决更为复杂的问题。有降低模型复杂度,减少特征数(去除非共性特征,提高模型泛化),增加训练数据数,调整参数和超参数,使用正则化约束。引入激活函数后,由于激活函数都是非线性的,这便给神经元引入了非线性元素,使得神经网络可以逼近任何非线性函数。在求解的过程中,所有的参数被表示为一个向量。
2025-01-02 21:08:57
1303
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人