weixin_45341031-优快云博客

原创关于transformer的学习3

从图中看出多头注意力机制似乎是指多组线性变换层，其实不是，事实上只用了一组线性变换层，即三个变换张量对Q、K、V分别进行线性变换、这些变换不会改变原有张量的尺寸，因此每个变换矩阵都是方阵，得到输出结果后，多头的作用才开始显现，每个头开始从词义分割输出的张量，也就是每个头都想获得一组Q,K,v进行注意力机制的计算，但是句子中每个词的表示只获得一部分，也就是只分割了最后一维的词嵌入向量。这就是所谓的多头，将每个头获得的输入送到注意力机制中，就形成了多头注意力。

2025-02-08 16:49:17 372

原创 Could not fetch remote environment / Connection error: Unauthorized client refused

vscode通过Remote-SSH来进行远程开发，连接Linux开发环境时遇到error：试了通过CMD SSH连接是没有问题的。

2024-09-02 17:04:58 530

原创关于transformer的学习2

关于transformer的学习2

2024-07-25 17:16:04 644 1

原创 embedding=nn.Embedding(13,3)的理解

代码段学习

2024-07-19 17:27:26 841

原创关于transformer的学习1（chatgpt生成答案）

总结来说，单词表示的向量矩阵中的每一行 𝑥是对单词的语义和位置信息的编码；这些机制使得模型能够在处理自然语言时，不仅仅关注单词的静态语义，还能理解和利用句子中单词之间复杂的语境和关联关系，从而提高了对文本理解和生成任务的效果。：第一层Encoder可能会捕捉到基础的单词级别的语义和依赖关系（例如，“有”是动词，“猫”是宾语），第二层Encoder可以在此基础上进一步整合这些信息，捕捉到更高级别的语义（例如，“一只猫”是一个整体的概念），第三层Encoder可以继续增强对句子整体语义的理解。

2024-07-16 17:09:11 913

原创 # kaldi error

kaldi error/kaldi/src/lib/libkaldi-base.so(kaldi::MessageLogger::LogMessage() const+0x82c) [0x7fba5c11f29a]fstdeterminizestar(kaldi::MessageLogger::LogAndThrow::operator=(kaldi::MessageLogger const&)+0x21) [0x424391]/kaldi/src/lib/libkaldi-fstext.so

2020-11-27 09:28:29 601 1

weixin_45341031的博客

原创关于transformer的学习3

原创 Could not fetch remote environment / Connection error: Unauthorized client refused

原创关于transformer的学习2

原创 embedding=nn.Embedding(13,3)的理解

原创关于transformer的学习1（chatgpt生成答案）

原创 # kaldi error

空空如也

空空如也

原创 关于transformer的学习3

原创 Could not fetch remote environment / Connection error: Unauthorized client refused

原创 关于transformer的学习2

原创 embedding=nn.Embedding(13,3)的理解

原创 关于transformer的学习1（chatgpt生成答案）

原创 # kaldi error

空空如也

空空如也

原创关于transformer的学习3

原创关于transformer的学习2

原创关于transformer的学习1（chatgpt生成答案）