efilU-优快云博客

原创从transformer到bart

上文我们介绍了transformer的encoder部分并介绍了其延申bert模型，本文将开始介绍transformer的decoder部分同时介绍bart模型。

2025-03-10 18:15:32 725

原创从transformer到bert

在上文介绍完自注意力机制后，本文介绍基于自注意力机制的transformer架构中的encoder部分，以及由transformer的encoder部分而来的bert模型。

2025-03-07 17:11:11 920

原创自注意力机制

在进行图像与卷积的学习后，我们知道一张图片可以由RGB三通道的矩阵表示，即图片天然可以由数字表示。那么进入到自然语言处理领域，我们该怎样用数据表示文字并将其输入到模型呢？

2025-03-06 17:08:55 945

原创 task 1

本文主要是对中task1所遇问题的记录，详细代码见我的。

2025-02-21 17:32:25 747

原创 day4 回归项目——covid-19预测

【代码】day4 回归项目——covid-19预测。

2025-01-06 23:25:27 267

原创 day3 线性表示代码

任务背景通过模拟随机生成真实数据x1x2x3x4x1x2x3x4和对应的y′y'y′，通过训练预测系数wbw, bwb。# 定义理想参数num = 500 # 数据规模true_b = torch.tensor(1.1) # torch.tensor为创建张量的函数# 定义原始参数lr = 0.03。

2025-01-04 12:17:50 96

有模型复杂化（增加神经网络的隐藏层数和隐藏单元数、更换更复杂的算法或模型），增加更多的特征，调整参数和超参数，降低正则化约束。如果没有激活函数，无论网络多么复杂，最后的输出都是输入的线性组合，而纯粹的线性组合并不能解决更为复杂的问题。有降低模型复杂度，减少特征数（去除非共性特征，提高模型泛化），增加训练数据数，调整参数和超参数，使用正则化约束。引入激活函数后，由于激活函数都是非线性的，这便给神经元引入了非线性元素，使得神经网络可以逼近任何非线性函数。在求解的过程中，所有的参数被表示为一个向量。

2025-01-02 21:08:57 1303

原创 day1 前置知识

规则+数据—>答案。

2024-12-31 17:18:07 1854

efilU的博客