
《Machine Comprehension Using Match-LSTM and Answer Pointer》这篇论文介绍了一种端到端解决机器阅读理解问答任务的方法,结合了Match-LSTM和Pointer Net。该文是第一个在SQuAD数据集上测试的端到端神经网络模型。最终训练效果好于原数据集发布时附带的手动抽取特征+LR模型。
match-LSTM是作者早些时候在文本蕴含(textual entertainment)任务中提出的,可参考《Learning natural language inference with LSTM》
源码:https://github.com/shuohangwang/SeqMatchSeq
参考博客:
- https://blog.youkuaiyun.com/laddie132/article/details/79159895
- QA(二):利用Attention机制,带着问题阅读
SQuAD数据集
SQuAD 是由 Rajpurkar 等人提出的一个最新的阅读理解数据集。该数据集包含 10 万个(问题,原文,答案)三元组,原文来自于 536 篇维基百科文章,而问题和答案的构建主要是通过众包的方式,让标注人员提出最多 5 个基于文章内容的问题并提供正确答案,且答案出现在原文中。SQuAD 和之前的完形填空类阅读理解数据集如 CNN/DM,CBT等最大的区别在于:SQuAD 中的答案不再是单个实体或单词,而可能是一段短语,这使得其答案更难预测。SQuAD 包含公开的训练集和开发集,以及一个隐藏的测试集,其采用了与 ImageNet 类似的封闭评测的方式,研究人员需提交算