深度学习中的注意力机制:MLP与LSTM实现
1. 神经注意力概述
在神经认知领域,注意力是一种因计算资源有限而产生的认知聚焦形式。人类大脑在认知处理过程中容易受到干扰,会倾向于屏蔽某些无关信息。例如,在工作中专注打电话时,会屏蔽同事的无关刺激;而专注于一项困难的认知任务时,旁边有人打电话则会分散注意力。人类的注意力机制在婴儿期开始发展,这一过程中的问题可能导致后期出现与注意力相关的病理问题。
人类大脑似乎会采用不同的注意力机制,一种是“目标驱动”的机制,用于主动关注刺激的某些部分(如阅读文本时关注某些单词);另一种是“刺激驱动”的机制,用于关注最初被忽略的刺激部分。
将注意力机制引入人工神经网络有诸多好处。注意力可以用来衡量信息的重要性。在自然语言处理(NLP)任务中实现这样的机制,有助于捕捉文本的重要方面,例如在主题分类时,神经网络最关注的单词。此外,过滤掉无关信息对模型性能有益。
我们将探讨两个与注意力机制相关的场景:
- 解释场景 :支持分析师处理大量文本数据,分析师希望了解分类器为何为文本分配特定的主题或情感标签,哪些单词对分配的标签起主要作用。
- 处理杂乱数据场景 :构建文档分类器时,数据可能包含大量与文档主题和情感标签无关的杂乱单词,这会影响分类器性能。注意力机制能否减少数据清理或术语选择的工作,通过降低对嘈杂单词的关注,提高对重要单词的关注。
在神经网络中,注意力可以编码为数值,最好在固定的归一化区间内,例如[0,1]。接近1的权重表示高度关注,接近0的权重表示关注较少。为了便于解释这些权重,应将其与网络的输入层相连。这需要一个
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



