如上图所示,人在看一些事物时,往往注意到的地方是不一样的。其中红色区域表明视觉系统更关注的目标,很明显对于图1所示的场景,人们会把注意力更多投入到人的脸部,文本的标题以及文章首句等位置。
1.Encoder-Decoder框架
在语言处理的场景下,上图可以理解为,在给定一些文本的情况下,生成其他的文本的通用架构。
如果Source是中文句子,Target是英文句子,那么这就是解决机器翻译问题的Encoder-Decoder框架;如果Source是一篇文章,Target是概括性的几句描述语句,那么这是文本摘要的Encoder-Decoder框架;如果Source是一句问句,Target是一句回答,那么这是问答系统或者对话机器人的Encoder-Decoder框架。
一般而言,文本处理和语音识别的Encoder部分通常采用RNN模型,图像处理的Encoder一般采用CNN模型。
引入注意力机制的框架,每个词对应一个c
注意力的值过对比当前的解码器隐藏层状态和每一个编码器隐藏层的状态
得到: