数据集构建方法
通过众包平台收集超过11,000个多轮开放域对话数据。数据采集基于SocialIQA基准中的情景提示(例如"艾迪森想去墨西哥旅行并联系朋友制定计划"),每个提示由五位标注者构建多轮对话,平均每段对话包含5.7轮交互。
常识推理筛选机制
使用ConceptNet知识图谱(包含<实体1,关系,实体2>三元组)对对话进行筛选。仅保留连续对话轮次中提及的概念可通过ConceptNet三元组关联的对话,从初始25,000段对话中筛选出11,000段高质量数据。
模型训练与评估
-
实验设置:
- 使用GPT2预训练语言模型
- 对比组1:传统数据集组合
- 对比组2:新数据集+经ConceptNet识别的常识对话数据
-
评估指标:
- ROUGE:生成响应与参考响应的重叠度
- 困惑度:模型生成参考响应的似然度
- 人工评估:对测试对话子集进行人工评分
-
实验结果:
新数据集训练模型在三项评估中均超越基线。在SIGDIAL 2021论文中报道的自动评估指标(结合长度、DialoGPT似然分和ConceptNet三元组数量)与人工评分相关性更高。
技术贡献与展望
- 提出面向常识推理的对话数据构建范式
- 开发融合知识图谱特征的自动评估指标
- 开放数据集以推动以下研究方向:
- 显式常识推理与端到端隐式推理的对比
- 响应合理性的心理语言学与模型开发评估框架
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

1万+

被折叠的 条评论
为什么被折叠?



