多语言复杂问答数据集Mintaka发布

问答系统任务定义

问答(QA)是机器学习中预测问题答案的任务。例如给定问题"娜塔莉·波特曼出生在哪里?“,QA模型可基于网络文章、知识图谱或内部存储知识预测答案"耶路撒冷”。这属于简单问题,仅需查询单一事实即可解答。

复杂问题挑战

并非所有问题都如此简单。例如"《泰坦尼克号》和《黑衣人2》哪部电影预算更高?"属于复杂问题,需要查询两个事实(《泰坦尼克号》预算2亿美元,《黑衣人2》预算1.4亿美元)并进行数值比较。当前主流QA模型在简单问题上表现良好,但复杂问题仍是待解难题,部分原因是缺乏高质量数据集。

Mintaka数据集特性

为填补该领域空白,某机构公开了Mintaka数据集(发表于COLING 2022会议)。该数据集具有以下特点:

  • 规模:包含2万条问题
  • 复杂性:支持8类复杂操作(计数/比较/最高级/序数/多跳/交集/差异/是非问题)
  • 多语言:专业翻译为阿拉伯语、法语等8种语言
  • 知识关联:将问题实体与Wikidata知识图谱链接

数据构建方法

通过众包平台采集问题,要求工作者撰写需要以下操作的问题:

  1. 计数类(如"有多少宇航员当选过国会议员?")
  2. 比较类(如"勃朗峰比雷尼尔山高吗?")
  3. 多跳推理(如"赢得第50届超级碗的四分卫是谁?")
  4. 实体交集(如"丹尼斯·维伦纽瓦导演且提莫西·查拉梅主演的电影?")

评估结果

  • 自然度测试:相比KQA Pro等数据集,Mintaka问题被认为更接近人类自然表达
  • 基线模型表现:T5闭卷问答模型以38% hits@1领先,表明数据集具有显著挑战性
  • 应用领域:覆盖电影/音乐/体育/地理等8个类别

该数据集为推进多语言复杂问答研究提供了重要基准,研究者可通过改进模型设计与训练方法进一步提升性能。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值