注意力与记忆增强网络及迁移学习技术
注意力与记忆增强网络
在注意力与记忆增强网络领域,有多种不同的网络架构在自然语言处理任务中展现出了独特的性能。
动态记忆网络(DMN)
动态记忆网络的核心代码片段如下:
episode = K.concatenate([facts, attentions], axis=2)
episode = self.episodeGRU(episode)
memory = self.memorynet(K.concatenate([memory, episode, question], axis=1))
return K.concatenate([memory, question], axis=1)
在训练时,使用扩展的bAbI训练集,采用50维的GloVe嵌入,批量大小为50,100个隐藏单元,3个记忆步骤,使用adam优化器训练20个周期。其在QA1、QA2和QA3任务上的测试集准确率如下表所示:
| 任务 | 测试集准确率 |
| ---- | ---- |
| QA1 | 1.00 |
| QA2 | 0.47 |
| QA3 | 0.29 |
与早期的架构(如MemN2N和LSTM网络)相比,动态记忆网络在这三个任务上表现更好,在QA1任务上达到了完美预测。
可微神经计算机(DNC)
可微神经计算机是一种带有独立存储库的神经网络,它是一个嵌入式神经网络控制器,具备一系列预设的内存存储和管理操作。作为神经图灵机架构的扩展,它
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



