【Attention机制讲解】

原创

已于 2022-03-30 15:55:06 修改

· 7.3k 阅读

·

5

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#经验分享 #transformer #bert #机器学习

于 2022-03-24 15:15:18 首次发布

Attention机制讲解

attention是一种能让模型对重要信息重点关注并充分学习吸收的技术，它不算是一个完整的模型，应当是一种技术，能够作用于任何序列模型中。

Seq2Seq

在开始讲解Attention之前，我们先简单回顾一下Seq2Seq模型，传统的机器翻译基本都是基于Seq2Seq模型来做的，该模型分为encoder层与decoder层，并均为RNN或RNN的变体构成，如下图所示：
在这里插入图片描述
该模型对于短文本的翻译来说效果很好，但是其也存在一定的缺点，如果文本稍长一些，就很容易丢失文本的一些信息，为了解决这个问题，Attention应运而生。

Attention

Attention，正如其名，注意力，该模型在decode阶段，会选择最适合当前节点的context作为输入。

Attention与传统的Seq2Seq模型的不同

在这里插入图片描述

encoder提供了更多的数据给到decoder，encoder会把所有的节点的hidden state提供给decoder，而不仅仅只是encoder最后一个节点的hidden state。
decoder并不是直接把所有encoder提供的hidden state作为输入，而是采取一种选择机制，把最符合当前位置的hidden state选出来，具体的步骤如下：

计算每一个hidden state的分数值（具体怎么计算我们下文讲解）；
对每个分数值做一个softmax的计算，这能让相关性高的hidden state的分数值更大，相关性低的hidden state的分数值更低；
加权求和。

Attention公式

An attention function ca be described as mapping a query and a set of key-value pairs to an output.
Attention函数的本质可以被描述为一个查询（query）到一系列键key-值value对的映射。

$\sum Similarity(Query, Key_i)*Value_i$

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。