机器阅读理解的简要介绍---以百度dureader和斯坦福SQuAD为例（一）

最新推荐文章于 2021-10-08 11:44:19 发布

波心冷血

最新推荐文章于 2021-10-08 11:44:19 发布

阅读量553

点赞数

分类专栏：自然语言处理文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_22441151/article/details/109534863

版权

本文简要介绍了机器阅读理解的概念，包括完形填空、多项选择、答案抽取和自由回答等任务。重点讨论了DuReader和SQuAD这两个常用数据集，DuReader源自百度，包含实体型、描述型和是非型问题，数据规模庞大；SQuAD是斯坦福的英文数据集。此外，文中还提及了文本预处理的步骤和代码实战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

什么是机器阅读？

QA问题的一个子集。
通过交互从书面文字中提取与构造文章语义的过程。

机器阅读理解常见的任务

完形填空
从原文中去除若干词，需要模型填入正确的单词或者短语
多项选择
模型需要从给定的若干选项中选出正确的答案
答案抽取
答案限定为文本中某一句，需要模型在文本中标注正确答案的起始和终止位置
自由回答
模型根据文本数据生成回答

机器阅读任务中的数据集

常见的数据集有百度知道的 DuReader 数据集和斯坦福大学的SQuAD数据集。

DuReader 数据集

数据来源
问题和文档均来自于百度搜索和百度知道，而答案是人工手动生成的，因此数据集更加切合真实场景。
问题类型
DuReader数据集的问题类型包括实体型（Entity）、描述型（Description）和是非型（YesNo）；其中每种类型还分为事实性（Fact）和观点型（Opinion）。对于实体型问题，答案一般是单个实体或一系列实体；对于描述型问题，答案则通常由几句话的摘要组成，一般包括“如何”或“为什么”的问题、两个或多个对象的比较

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。