- 博客(3)
- 问答 (1)
- 收藏
- 关注
原创 Transformer的整体架构
这种方法为每个位置的词向量添加了一个固定大小的编码向量,该编码向量根据词语在句子中的位置和词向量的维度进行计算。具体来说,对于句子中的第pos个词,其位置编码PE是一个d_model维的向量,其中d_model是词向量的维度。Feed Forward(前馈神经网络)的主要作用是对自注意力机制输出的结果进行进一步的变换和处理,以提取更高层次的特征信息。这些向量通常是通过查找嵌入矩阵(Embedding Matrix)得到的,该矩阵的行数等于词汇表中的单词数量,列数等于嵌入向量的维度(一个超参数)。
2024-11-19 14:40:50
628
原创 自注意力机制的计算过程
定义三个权重矩阵 Wq(查询矩阵)、Wk(键矩阵)和 Wv(值矩阵),它们的维度通常与输入元素的嵌入维度相匹配。自注意力机制的计算过程主要涉及三个步骤:生成查询(Query)、键(Key)和值(Value)向量,计算注意力得分,以及根据注意力得分生成加权输出。公式更新为:scaled_score(ai, aj) = score(ai, aj) / √dk,其中 dk 是键向量的维度。)的查询向量 qi 和键向量 kj 的点积(i为自身,j为包含自身的其他元素)。进行归一化后ai,j变为a’i,j。
2024-10-16 17:02:38
910
2
原创 C语言部分常见函数
格式为:gets_s(目标字符数组),必须为字符格式,且需要头文件string.h。可使用strlen函数测量字符串长度(需要使用头文件string.h)格式:strupr(字符串);格式:strlwr(字符串);功能是将字符串内的大写字母改为小写。数组1>数组2 返回值为正数;格式:strcpy(目的字符数组名,源字符数组名);格式:strcat(目的字符数组名,源字符数组名);格式:strcmp(字符数组名1,字符数组名2);格式:strlen(字符数组名);格式为:puts(目标字符名);
2024-10-16 10:21:27
422
空空如也
为什么a和b必须都要用double类型,为什么不能用float
2022-06-28
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅