自然语言处理: 第五章Attention注意力机制

原创

已于 2024-03-28 11:46:31 修改 · 687 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #人工智能

于 2023-07-18 21:47:59 首次发布

自然语言处理: 第五章Attention注意力机制

理论基础

Attention（来自2017年google发表的[1706.03762] Attention Is All You Need (arxiv.org) ），顾名思义是注意力机制，字面意思就是你所关注的东西，比如我们看到一个非常非常的故事的时候，但是其实我们一般能用5W2H就能很好的归纳这个故事，所以我们在复述或者归纳一段文字的时候，我们肯定有我们所关注的点，这些关注的点就是我们的注意力，而类似How 或者when 这种不同的形式就成为了Attention里的多头的机制。下图是引自GPT3.5对注意力的一种直观的解释，简而言之其实就是各种不同(多头)我们关注的点(注意力)构成了注意力机制，这个奠定现代人工智能基石的基础。
在这里插入图片描述

那么注意力机制的优点是什么呢？ (下面的对比是相对于上一节的Seq2Seq模型)

解决了长距离依赖问题，由于Seq2Seq模型一般是以时序模型eg RNN / Lstm / GRU 作为基础, 所以就会必然导致模型更倾向新的输入 – 多头注意力机制允许模型在解码阶段关注输入序列中的不同部分
信息损失：很难将所有信息压缩到一个固定长度的向量中(encorder 输出是一个定长的向量) – 注意力机制动态地选择输入序列的关键部分
复杂度和计算成本：顺序处理序列的每个时间步 – 全部网络都是以全连接层或者点积操作，没有时序模型
对齐问题：源序列和目标序列可能存在不对齐的情况 – 注意力机制能够为模型提供更精细的词汇级别对齐信

注意力可以拆解成下面6个部分，下面会在代码实现部分逐个解释

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-npjJuAYN-1689687821801)(image/06_attention/1689603947092.png)]