论文分享 - 记忆网络之Hierarchical Memory Networks（架构分层）

最新推荐文章于 2024-12-19 15:17:34 发布

转载最新推荐文章于 2024-12-19 15:17:34 发布 · 503 阅读

NLP/DeepLearning 专栏收录该内容

319 篇文章

订阅专栏

HMN(Hierarchical Memory Networks)是一种新型记忆网络模型，通过在句子级别和单词级别上进行分层构建，以提高对未知词汇的回答准确性。该模型利用k-max pooling筛选关键句子，并采用双向GRU和注意力机制来捕捉单词级信息。

记忆网络之Hierarchical Memory Networks（架构分层）

这是中科院去年发表的一篇论文“Hierarchical Memory Networks for Answer Selection on Unknown Words”。其仿真代码作者已经开源，是用Lasagne实现的。虽然和上一篇一样都叫做“Hierarchical Memory Networks”，但是却千差万别。上一篇主要是将memory以分层结构进行存储和搜索，以实现大规模记忆时可以加快计算速度。而本篇则是从模型结构上面进行分层构建，从sentence-level和word-level两个层面进行训练以达到准确度的提升和对unknown words的识别。

作者认为End-to-End MemNN仅从句子层面对输入进行编码会丢失一些细节信息，尤其是当答案是稀有词或者从未出现过的词时（答案肯定会在输入文本中，只不过作者说大部分工作中会把稀有词直接当做unknown对待。可是那是因为别人的答案并不是稀有词的前提下啊。而且究其根源最终的目标不过是从一段材料中找到一个答案而已。反正感觉有些牵强吧==）。所以作者提出HMN模型来解决这种问题，该模型首先使用sentence-level的memory作为推理模块找到输入memory中与问题的相关程度，然后使用k-max pooling选择出最相关的k个句子。接下来对所有句子中每个单词使用Bi-GRU进行word-level的建模，得到word-level的memory，然后对k个句子中的每个单词按照句子层面的输出进行Attention操作，得到最终单词层面的输出。最后将句子和单词的输出相加并进行联合训练即可。模型的架构图如下所示，接下来我们来看一下模型的细节部分：