对话系统数据集--CrossWOZ

介绍CrossWOZ,首个大规模跨领域中文任务导向多轮对话数据集,涵盖景点、酒店等5大领域,旨在促进中文多轮对话研究。数据集包含6K对话,涉及3.2个领域,提供详细对话状态记录。

基本概念

什么是对话

  • 我:你好!
  • 机器人:你也好!

多轮对话呢?

  • 我:你好!
  • 机器人:你也好!
  • 我:吃饭了伐?
  • 机器人:当然没有

(来回好几回合)

任务导向多轮对话呢?

  • 我:帮我订一张机票!
  • 机器人:哪里呢?
  • 我:北京的。
  • 机器人:订好了。

(不是闲聊,有目的性的对话)

跨领域任务导向多轮对话呢?

  • 我:帮我订一张机票!
  • 机器人:哪里呢?
  • 我:北京的。
  • 机器人:订好了。
  • 我:再在附近订个五星酒店。
  • 机器人:北京饭店你看可以吗?
    (用户有两个以上目的(订机票和酒店)要通过对话实现)

中文?突出中文是因为之前的大规模开源多轮对话数据集MultiWOZ是英文的。MultiWOZ在推动英文多轮对话诞生了很多研究。因此这次清华大学计算机系制作了中文的数据集以填补中文任务导向对话数据的空白。

论文地址:https://arxiv.org/pdf/2002.11893.pdficon-default.png?t=LA92https://arxiv.org/pdf/2002.11893.pdf

 

1.CrossWOZ大规模跨领域中文任务导向多轮对话数据集

数据集参数

CrossWOZ包含 6K 个对话,102K 个句子,涉及 5 个领域(景点、酒店、餐馆、地铁、出租)。平均每个对话涉及 3.2 个领域,远超之前的多领域对话数据集,增添了对话管理的难度。

特点

  1. 用户在某个领域的选择可能会影响到与之相关的领域的选择,在跨领域上下文理解更有挑战。
  2. 第一个大规模中文跨领域任务导向数据集。
  3. 在用户端和系统端都有详细的对话状态记录,标注信息全面

与其他数据集的对比

跨领域对话的数据样例

表 2:MultiWOZ、Schema 和 CrossWOZ 中的跨域对话示例。 跨域约束(粗体)的值带有下划线。 为了节省空间,省略了一些轮次。 为简单起见,酒店名称由 A、B、C 代替。 跨域约束在 MultiWOZ 和 Schema 中预先指定,而在 CrossWOZ 中动态确定。 在 CrossWOZ 中,在一个域中的选择将极大地影响相关域。

数据标注方法

1 基础数据库的构建。通过爬虫从网络上获取了北京市的酒店/旅游景点/饭店以及地铁和出租车信息。

 表 3:数据库统计信息。 ∗ 表示有 37 个二进制槽用于酒店服务,例如叫醒服务。 最后三行显示了每个实体附近景点/餐厅/酒店的平均数量。 我们没有收集酒店域的附近酒店信息。

2 目标构建。论文通过算法<

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值