只是个学生-优快云博客

原创 Transformer的整体架构

这种方法为每个位置的词向量添加了一个固定大小的编码向量，该编码向量根据词语在句子中的位置和词向量的维度进行计算。具体来说，对于句子中的第pos个词，其位置编码PE是一个d_model维的向量，其中d_model是词向量的维度。Feed Forward（前馈神经网络）的主要作用是对自注意力机制输出的结果进行进一步的变换和处理，以提取更高层次的特征信息。这些向量通常是通过查找嵌入矩阵（Embedding Matrix）得到的，该矩阵的行数等于词汇表中的单词数量，列数等于嵌入向量的维度（一个超参数）。

2024-11-19 14:40:50 628

原创自注意力机制的计算过程

定义三个权重矩阵 Wq（查询矩阵）、Wk（键矩阵）和 Wv（值矩阵），它们的维度通常与输入元素的嵌入维度相匹配。自注意力机制的计算过程主要涉及三个步骤：生成查询（Query）、键（Key）和值（Value）向量，计算注意力得分，以及根据注意力得分生成加权输出。公式更新为：scaled_score(ai, aj) = score(ai, aj) / √dk，其中 dk 是键向量的维度。）的查询向量 qi 和键向量 kj 的点积（i为自身，j为包含自身的其他元素）。进行归一化后ai,j变为a’i,j。

2024-10-16 17:02:38 910 2

原创 C语言部分常见函数

格式为：gets_s（目标字符数组），必须为字符格式，且需要头文件string.h。可使用strlen函数测量字符串长度（需要使用头文件string.h）格式：strupr（字符串）；格式：strlwr（字符串）；功能是将字符串内的大写字母改为小写。数组1＞数组2 返回值为正数；格式：strcpy（目的字符数组名，源字符数组名）；格式：strcat（目的字符数组名，源字符数组名）；格式:strcmp(字符数组名1，字符数组名2)；格式：strlen（字符数组名）；格式为：puts（目标字符名）；

2024-10-16 10:21:27 422

空空如也

为什么a和b必须都要用double类型，为什么不能用float

2022-06-28

TA创建的收藏夹 TA关注的收藏夹