- 博客(6)
- 收藏
- 关注
原创 关于transformer的学习3
从图中看出多头注意力机制似乎是指多组线性变换层,其实不是,事实上只用了一组线性变换层,即三个变换张量对Q、K、V分别进行线性变换、这些变换不会改变原有张量的尺寸,因此每个变换矩阵都是方阵,得到输出结果后,多头的作用才开始显现,每个头开始从词义分割输出的张量,也就是每个头都想获得一组Q,K,v进行注意力机制的计算,但是句子中每个词的表示只获得一部分,也就是只分割了最后一维的词嵌入向量。这就是所谓的多头,将每个头获得的输入送到注意力机制中,就形成了多头注意力。
2025-02-08 16:49:17
372
原创 Could not fetch remote environment / Connection error: Unauthorized client refused
vscode通过Remote-SSH来进行远程开发,连接Linux开发环境时遇到error:试了通过CMD SSH连接是没有问题的。
2024-09-02 17:04:58
530
原创 关于transformer的学习1(chatgpt生成答案)
总结来说,单词表示的向量矩阵中的每一行 𝑥是对单词的语义和位置信息的编码;这些机制使得模型能够在处理自然语言时,不仅仅关注单词的静态语义,还能理解和利用句子中单词之间复杂的语境和关联关系,从而提高了对文本理解和生成任务的效果。:第一层Encoder可能会捕捉到基础的单词级别的语义和依赖关系(例如,“有”是动词,“猫”是宾语),第二层Encoder可以在此基础上进一步整合这些信息,捕捉到更高级别的语义(例如,“一只猫”是一个整体的概念),第三层Encoder可以继续增强对句子整体语义的理解。
2024-07-16 17:09:11
913
原创 # kaldi error
kaldi error/kaldi/src/lib/libkaldi-base.so(kaldi::MessageLogger::LogMessage() const+0x82c) [0x7fba5c11f29a]fstdeterminizestar(kaldi::MessageLogger::LogAndThrow::operator=(kaldi::MessageLogger const&)+0x21) [0x424391]/kaldi/src/lib/libkaldi-fstext.so
2020-11-27 09:28:29
601
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人