常识对话新数据集发布与技术解析

数据集构建方法

通过众包平台收集超过11,000个多轮开放域对话数据。数据采集基于SocialIQA基准中的情景提示(例如"艾迪森想去墨西哥旅行并联系朋友制定计划"),每个提示由五位标注者构建多轮对话,平均每段对话包含5.7轮交互。

常识推理筛选机制

使用ConceptNet知识图谱(包含<实体1,关系,实体2>三元组)对对话进行筛选。仅保留连续对话轮次中提及的概念可通过ConceptNet三元组关联的对话,从初始25,000段对话中筛选出11,000段高质量数据。

模型训练与评估

  1. 实验设置

    • 使用GPT2预训练语言模型
    • 对比组1:传统数据集组合
    • 对比组2:新数据集+经ConceptNet识别的常识对话数据
  2. 评估指标

    • ROUGE:生成响应与参考响应的重叠度
    • 困惑度:模型生成参考响应的似然度
    • 人工评估:对测试对话子集进行人工评分
  3. 实验结果
    新数据集训练模型在三项评估中均超越基线。在SIGDIAL 2021论文中报道的自动评估指标(结合长度、DialoGPT似然分和ConceptNet三元组数量)与人工评分相关性更高。

技术贡献与展望

  • 提出面向常识推理的对话数据构建范式
  • 开发融合知识图谱特征的自动评估指标
  • 开放数据集以推动以下研究方向:
    • 显式常识推理与端到端隐式推理的对比
    • 响应合理性的心理语言学与模型开发评估框架

更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值