问答系统任务定义
问答(QA)是机器学习中预测问题答案的任务。例如给定问题"娜塔莉·波特曼出生在哪里?“,QA模型可基于网络文章、知识图谱或内部存储知识预测答案"耶路撒冷”。这属于简单问题,仅需查询单一事实即可解答。
复杂问题挑战
并非所有问题都如此简单。例如"《泰坦尼克号》和《黑衣人2》哪部电影预算更高?"属于复杂问题,需要查询两个事实(《泰坦尼克号》预算2亿美元,《黑衣人2》预算1.4亿美元)并进行数值比较。当前主流QA模型在简单问题上表现良好,但复杂问题仍是待解难题,部分原因是缺乏高质量数据集。
Mintaka数据集特性
为填补该领域空白,某机构公开了Mintaka数据集(发表于COLING 2022会议)。该数据集具有以下特点:
- 规模:包含2万条问题
- 复杂性:支持8类复杂操作(计数/比较/最高级/序数/多跳/交集/差异/是非问题)
- 多语言:专业翻译为阿拉伯语、法语等8种语言
- 知识关联:将问题实体与Wikidata知识图谱链接
数据构建方法
通过众包平台采集问题,要求工作者撰写需要以下操作的问题:
- 计数类(如"有多少宇航员当选过国会议员?")
- 比较类(如"勃朗峰比雷尼尔山高吗?")
- 多跳推理(如"赢得第50届超级碗的四分卫是谁?")
- 实体交集(如"丹尼斯·维伦纽瓦导演且提莫西·查拉梅主演的电影?")
评估结果
- 自然度测试:相比KQA Pro等数据集,Mintaka问题被认为更接近人类自然表达
- 基线模型表现:T5闭卷问答模型以38% hits@1领先,表明数据集具有显著挑战性
- 应用领域:覆盖电影/音乐/体育/地理等8个类别
该数据集为推进多语言复杂问答研究提供了重要基准,研究者可通过改进模型设计与训练方法进一步提升性能。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

612

被折叠的 条评论
为什么被折叠?



