自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 问答 (1)
  • 收藏
  • 关注

原创 Transformer的整体架构

这种方法为每个位置的词向量添加了一个固定大小的编码向量,该编码向量根据词语在句子中的位置和词向量的维度进行计算。具体来说,对于句子中的第pos个词,其位置编码PE是一个d_model维的向量,其中d_model是词向量的维度。Feed Forward(前馈神经网络)的主要作用是对自注意力机制输出的结果进行进一步的变换和处理,以提取更高层次的特征信息。这些向量通常是通过查找嵌入矩阵(Embedding Matrix)得到的,该矩阵的行数等于词汇表中的单词数量,列数等于嵌入向量的维度(一个超参数)。

2024-11-19 14:40:50 628

原创 自注意力机制的计算过程

定义三个权重矩阵 Wq(查询矩阵)、Wk(键矩阵)和 Wv(值矩阵),它们的维度通常与输入元素的嵌入维度相匹配。自注意力机制的计算过程主要涉及三个步骤:生成查询(Query)、键(Key)和值(Value)向量,计算注意力得分,以及根据注意力得分生成加权输出。公式更新为:scaled_score(ai, aj) = score(ai, aj) / √dk,其中 dk 是键向量的维度。)的查询向量 qi 和键向量 kj 的点积(i为自身,j为包含自身的其他元素)。进行归一化后ai,j变为a’i,j。

2024-10-16 17:02:38 910 2

原创 C语言部分常见函数

格式为:gets_s(目标字符数组),必须为字符格式,且需要头文件string.h。可使用strlen函数测量字符串长度(需要使用头文件string.h)格式:strupr(字符串);格式:strlwr(字符串);功能是将字符串内的大写字母改为小写。数组1>数组2 返回值为正数;格式:strcpy(目的字符数组名,源字符数组名);格式:strcat(目的字符数组名,源字符数组名);格式:strcmp(字符数组名1,字符数组名2);格式:strlen(字符数组名);格式为:puts(目标字符名);

2024-10-16 10:21:27 422

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除