前提:
要保证:
例子:
一个人去考试,Q代表要考几场,每场考试有几道题;K表示有几个小姐姐可以来抄答案,每个小姐姐擅长每道题的概率;那么Q·K的结果的意义就是这个人在每场考试中抄每个人答案的概率。V中是每个小姐姐对每个题的答案,让刚才得出的结果再乘V,得出的结果就是这个人在每场考试中抄来的每道题的答案。
文章讨论了在模拟考试场景下,softmax函数如何计算Q和K的相关性,以及layernorm在归一化中的作用,防止结果偏差。同时提到注意力机制中key、value和query的角色,并提及自注意力机制的特点。
要保证:
一个人去考试,Q代表要考几场,每场考试有几道题;K表示有几个小姐姐可以来抄答案,每个小姐姐擅长每道题的概率;那么Q·K的结果的意义就是这个人在每场考试中抄每个人答案的概率。V中是每个小姐姐对每个题的答案,让刚才得出的结果再乘V,得出的结果就是这个人在每场考试中抄来的每道题的答案。
1万+

被折叠的 条评论
为什么被折叠?