基本概念
什么是对话?
- 我:你好!
- 机器人:你也好!
多轮对话呢?
- 我:你好!
- 机器人:你也好!
- 我:吃饭了伐?
- 机器人:当然没有
(来回好几回合)
任务导向多轮对话呢?
- 我:帮我订一张机票!
- 机器人:哪里呢?
- 我:北京的。
- 机器人:订好了。
(不是闲聊,有目的性的对话)
跨领域任务导向多轮对话呢?
- 我:帮我订一张机票!
- 机器人:哪里呢?
- 我:北京的。
- 机器人:订好了。
- 我:再在附近订个五星酒店。
- 机器人:北京饭店你看可以吗?
(用户有两个以上目的(订机票和酒店)要通过对话实现)
中文?突出中文是因为之前的大规模开源多轮对话数据集MultiWOZ是英文的。MultiWOZ在推动英文多轮对话诞生了很多研究。因此这次清华大学计算机系制作了中文的数据集以填补中文任务导向对话数据的空白。

论文地址:https://arxiv.org/pdf/2002.11893.pdf
https://arxiv.org/pdf/2002.11893.pdf
1.CrossWOZ大规模跨领域中文任务导向多轮对话数据集
数据集参数
CrossWOZ包含 6K 个对话,102K 个句子,涉及 5 个领域(景点、酒店、餐馆、地铁、出租)。平均每个对话涉及 3.2 个领域,远超之前的多领域对话数据集,增添了对话管理的难度。
特点
- 用户在某个领域的选择可能会影响到与之相关的领域的选择,在跨领域上下文理解更有挑战。
- 第一个大规模中文跨领域任务导向数据集。
- 在用户端和系统端都有详细的对话状态记录,标注信息全面。
与其他数据集的对比

跨领域对话的数据样例

表 2:MultiWOZ、Schema 和 CrossWOZ 中的跨域对话示例。 跨域约束(粗体)的值带有下划线。 为了节省空间,省略了一些轮次。 为简单起见,酒店名称由 A、B、C 代替。 跨域约束在 MultiWOZ 和 Schema 中预先指定,而在 CrossWOZ 中动态确定。 在 CrossWOZ 中,在一个域中的选择将极大地影响相关域。
数据标注方法
1 基础数据库的构建。通过爬虫从网络上获取了北京市的酒店/旅游景点/饭店以及地铁和出租车信息。

表 3:数据库统计信息。 ∗ 表示有 37 个二进制槽用于酒店服务,例如叫醒服务。 最后三行显示了每个实体附近景点/餐厅/酒店的平均数量。 我们没有收集酒店域的附近酒店信息。
2 目标构建。论文通过算法<

介绍CrossWOZ,首个大规模跨领域中文任务导向多轮对话数据集,涵盖景点、酒店等5大领域,旨在促进中文多轮对话研究。数据集包含6K对话,涉及3.2个领域,提供详细对话状态记录。
最低0.47元/天 解锁文章
3万+

被折叠的 条评论
为什么被折叠?



