用神经网络解决阅读理解问题是当下的NLP任务的重点之一。本文对机器阅读理解任务中的数据集进行了概括介绍。
机器阅读理解中的数据集
机器阅读理解的一般任务定义是,给机器一篇或多篇文章(Passage,P),机器需要对若干问题(Question,Q)进行回答(Answer,A)。用一个式子总结就是:
f ( P , Q ) = A f(P,Q)=A f(P,Q)=A
这里的 f 就是阅读理解的模型。模型的发展离不开数据集,数据集的不断进步直接地推动了该领域的研究进展。根据问题(Q)和回答(A)的形式,机器阅读理解中的数据集可以分为最早的完型填空形式(cloze-style)、多项选择(multi-choice)、区域预测(span-prediction)和自由形式(open-form)。经历过英语高考的各位对此都不陌生,下面对这四种形式分别介绍,并给出每种形式的代表数据集。
1、完型填空形式
完型填空类型的阅读理解问题就是在原文中挖出一个空来,由机器根据对文章上下文的理解去补全。这类比较著名的数据集有CNN/Daily Mail、Children’s Book Test(CBT)等,下文介绍了CNN/Daily Mail.
- CNN/Daily Mail :
CNN/Daily Mail s数据集

本文概述了机器阅读理解中的四种数据集形式:完型填空、多项选择、区域预测和自由形式,并列举了代表性数据集,如CNN/Daily Mail、RACE、SQuAD和DuReader,强调了这些数据集在推动NLP研究中的作用。
最低0.47元/天 解锁文章
1409

被折叠的 条评论
为什么被折叠?



