自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 Transformer #task5 实践项目

Datawhale组队学习。

2025-01-27 16:38:09 592

原创 Transformer #task4 Decoder

DataWhale组队学习。

2025-01-24 17:33:59 803

原创 Transformer -task 3 Encoder

自注意力(Self Attention)是Transformer架构中的核心组成部分,其主要功能是捕捉序列内部各元素之间的依赖关系。(1)定义与工作原理:自注意力机制允许序列中的每个元素(如单词或特征向量)与序列中的所有其他元素进行交互。这一过程涉及为每个元素生成查询(Query)、键(Key)和值(Value)三个向量。通过计算查询向量与所有键向量之间的点积,得到注意力权重,这些权重随后用于对值向量进行加权求和,从而为每个元素生成一个包含上下文信息的向量。并行处理。

2025-01-21 14:27:25 914

原创 Transformer-task2

编码器-解码器架构Transformer的核心是其编码器-解码器架构——两个关键组件之间的共生关系,分别负责处理输入序列和生成输出序列。编码器和解码器中的每一层都包含相同的子层,包括自注意力机制和前馈网络。这种架构不仅有助于全面理解输入序列,而且能够生成上下文丰富的输出序列。

2025-01-18 16:13:13 684

原创 transformer-task1引言

Seq2Seq模型,全称Sequence to Sequence模型,就如字面意思,输入一个序列,输出另一个序列。这种结构最重要的地方在于输入序列和输出序列的长度是可变的。Seq2Seq模型的核心是编码器 - 解码器架构。编码器将输入序列(如一段文本、语音信号等)编码成一个固定长度的上下文向量,这个向量包含了输入序列的全部信息。解码器则基于这个上下文向量生成输出序列。例如,在机器翻译任务中,编码器将中文句子编码,解码器根据编码后的信息生成对应的英文句子。

2025-01-15 00:53:51 730

原创 Datawhale X 李宏毅苹果书 AI夏令营Task3笔记

批量归一化(Batch Normalization),通常缩写为BN,是一种在训练深度神经网络时用于提高训练速度、稳定性和性能的技术。它通过规范化(归一化)层的输入来减少内部协变量偏移,从而使得网络的每一层都输入到一个相对稳定的环境中。批量归一化的核心思想是通过对神经网络中的输入进行归一化处理,从而稳定这些输入的分布,减少训练过程中输入分布的变化。这种方法不仅有助于加速训练,还能够提高模型的泛化能力和稳定性。通过引入可学习的缩放和平移参数,批量归一化保持了网络的表达能力,允许模型学习到有用的特征表示。

2024-09-03 18:58:05 1154

原创 Datawhale X 李宏毅苹果书 AI夏令营Task2笔记

在下图中的误差表面中,如果考虑横轴方向,绿色箭头处坡度比较陡峭,需要较小的学习率,但是走到红色箭头处,坡度变得平坦了起来,需要较大的学习率。凸的误差表面的等高线是椭圆形的,椭圆的长轴非常长,短轴相比之下比较短,其在横轴的方向梯度非常小,坡度的变化非常小,非常平坦;回归问题输出的是连续的数值,分类问题输出的是有限的、离散的类别标签。很多时候训练陷入瓶颈,损失不再下降,不是因为陷入了局部最小值,大部分情况下是在局部最小值附近震荡(学习率太大),这个时候应该通过降低学习率的方式,从而能够继续往最小值方向下降。

2024-08-31 20:56:32 821

原创 Datawhale X 李宏毅苹果书AI夏令营 Task1 局部极小值与鞍点

低维度空间中的局部极小值,在更高维的空间中可能是鞍点。如下图所示,最小值比例最大也不过处于 0.5 ~ 0.6 的范围,代表只有约一半的特征值为正,另一半的特征值为负,代表在所有的维度里面有约一半的路可以让损失上升,还有约一半的路可以让损失下降。局部最小值就经过泰勒展开后的损失函数第二项中的H 矩阵的特征值全部大于/小于零,而鞍点则是H矩阵的特征值中即有大于零的,也有小于零的。在实际的过程中,我们输入到模型中的数据特征是非常多的,所以我们通常遇到的是鞍点,而不是临界点(极大值/极小值)。

2024-08-27 20:24:55 775

原创 Datawhale-AI夏令营 Task3:基于Transformer解决机器翻译任务

基于循环或卷积神经网络的序列到序列建模方法是现存机器翻译任务中的经典方法。然而,它们在建模文本长程依赖方面都存在一定的局限性。对于卷积神经网络来说,受限的上下文窗口在建模长文本方面天然地存在不足。如果要对长距离依赖进行描述,需要多层卷积操作,而且不同层之间信息传递也可能有损失,这些都限制了模型的能力。而对于循环神经网络来说,上下文的语义依赖是通过维护循环单元中的隐状态实现的。在编码过程中,每一个时间步的输入建模都涉及到对隐藏状态的修改。

2024-07-20 23:36:39 1549

原创 【Datawhale】 Task2:从baseline代码详解入门深度学习

该方法使得机器翻译系统的评价变得自动、快速、便捷,而且评价过程可以重复。正是由于 BLEU 等自动评价方法的提出,机器翻译研究人员可以在更短的时间内得到译文质量的评价结果,加速系统研发的进程。传统观点把翻译分为。

2024-07-17 21:57:07 1948 1

原创 卷积神经网络

(图片来源:https://www.bilibili.com/video/BV1AJ411Q72b/?vd_source=080c58ed744f7682e4eb0e56a511ad78【子豪兄】深度学习之卷积神经网络)上图为卷积神经网络的基本架构,简单来说,卷积神经网络分为卷积层、降or下采样层(池化层),再来一层卷积层,再来一层池化层,接着全连接层将之前卷积层和池化层得到的图像的底层的特征和信息进行汇总,最后进行输出。卷积层用来提取图像的底层特征;池化层用来防止过拟合,并且减少数据维度;全连接层。

2023-04-14 13:04:59 457 1

原创 实现mnist手写数字识别

卷积层用来提取图像的底层特征;池化层用来防止过拟合,并且减少数据维度;全连接层用来汇总之前卷积层和池化层得到的图像的底层的特征和信息,最后进行输出。

2023-02-10 15:29:39 2475 2

Transformer-task2

Transformer-task2

2025-01-18

Transformer-task2

Transformer-task2

2025-01-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除