
深度学习
文章平均质量分 95
MonTuee
这个作者很懒,什么都没留下…
展开
-
动手学注意力机制(Attention Is All You Need)
注意力机制用于根据给定的查询和键值对,为每个查询分配一个权重,以便于汇总键值对的信息。常见的方法包括注意力池化和注意力分数计算。在序列到序列任务中,注意力机制通常用于解码器端,以便于对编码器输出进行加权汇总,以捕获重要信息。原创 2024-03-18 10:51:54 · 883 阅读 · 0 评论 -
动手学Transformer
Transformer模型使用了自注意力机制,允许输入序列内的每个元素相互关注,无需外部信息。通过位置编码来维护序列中元素的相对位置信息。多头注意力机制使模型能够同时关注输入的不同部分。编码器和解码器块的结构保持一致,且层归一化操作有助于处理不同长度的序列。在解码器中,对于每个预测,只允许关注已知的序列部分,以避免未来信息泄漏。原创 2024-03-18 10:43:44 · 1096 阅读 · 0 评论