深度学习中的注意力机制与多任务学习
1. 深度学习模型选择与注意力机制
在深度学习中,有两种重要的模型:静态多层感知机(MLP)和时序长短期记忆网络(LSTM)。我们可以根据具体应用场景以及时序信息是否起作用来选择使用哪种模型。
下面有一个相关练习:创建一个有状态的AttentionLSTM版本,并将其应用于由分段文档组成的时序数据。检验该模型是否能够对文档开头的某些单词保持注意力。
同时,我们还学习了以下内容:
- 如何向MLP模型添加简单的静态软注意力或全局注意力机制。这种注意力机制靠近输入层,会为单词分配权重。
- 如何通过实现专有的Keras层,为LSTM实现时序软注意力或全局注意力。
- 如何使用词云来可视化注意力。
在实验中,我们观察到:
- 这些简单的注意力机制似乎能够处理噪声数据(停用词)。
- 从性能角度来看,去除停用词可能不是一个好主意。噪声停用词似乎能够吸引网络的有价值注意力。
需要注意的是,对输入数据的注意力是解释数据某些部分重要性的初始步骤。将注意力应用于模型的更高抽象层次可能会反映出更有意义的注意力,但在深度自然语言处理模型中,语言抽象究竟是如何发生的问题仍未解决。
2. 多任务学习概述
多任务学习旨在联合学习多个自然语言处理(NLP)任务,通过共同学习来提高每个子任务的性能。我们将学习三种不同的多任务学习方法,并将其应用于实际的NLP问题。具体会应用到以下三个数据集:
- 两个情感数据集,分别是消费者产品评论和餐厅评论。
- 路透社主题数据集。
- 词性标注和命名实体标注数据集。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



