Abstract
开放领域问答系统近期的工作都假设了 support evidence 的强监督,或者假设有一个黑盒 IR 系统来检索 evidence candidates.
我们认为这二者都不是最优解,因为 gold evidence 并非总是存在,而且 QA 与 IR 存在本质上的不同。
我们是第一个证明 retriever 和 reader 也许可以从问答对中联合学习,并且不需要任何的 IR 系统。在这种设置下,从维基百科中进行 evidence retrieval 可以看成一种 latent variable.
由于从头学习是不实际的,我们使用 Inverse Cloze Task (ICT)任务来预训练 retriever.
我们在 5 种数据集上进行测试,并发现:
- 在提问者已经知道答案的数据集上,传统的 IR 系统,例如 BM25 就足够了
- 在用户真的在寻求答案的数据集上,学到的 retriever 非常关键,在 exact match 性能上超过 BM25 达 19 个点之多。
Introduction
现有的方法需要一个 IR 系统来做很多繁重的工作,即便这个 IR 系统无法在下游任务上 fine-tu