The Ubuntu Dialogue Corpus- A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems

Ubuntu对话语料库包含1,000,000个训练样本,用于研究不结构化的多轮对话系统。数据集分为训练、验证和测试集,具有正负标签。模型旨在从多个干扰选项中识别正确的响应,并通过recall@k进行评估。代码示例展示了训练和评估时的批处理大小配置。" 114131694,10297274,Android保持Session会话实战,"['Android开发', '会话管理', 'Java', '网络请求']

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

ubuntu对话语料库

训练数据由:1,000,000个例子组成,50%positive(label1)50%negative(label0)。每个example由一个文本,这里有对话,一个表达和一个与之对应的回答,和一个negative label意味着这个表达不正确--这个negative label是从语料库中随机选取的。这里有一些数据的例子
enter image description here
  这个数据集有test和validations sets。从这些训练数据中的格式是不一样的。每一条记录在test/validation set 都有context,a ground truth utterace(the real respose)和9个不正确的utterances叫做distractors(干扰选项)。模型的目标是把得分最高的utterace分配给正确的utterace,和把得分地的分配给错误的utterances。
  enter image description here
  有许多方式来评估我们的模型效果。一个常用的度量标准是recall@k。Recall@k意味着我们让模型从10个可能的响应(1 true 9 distractors)挑选出最好的response。

<think>嗯,用户想要寻找自然语言处理中的单轮对话数据集。这个需求比较明确,但需要仔细核对对话类型定义:单轮对话通常指一问一答的简单交互,常见于客服系统或FAQ场景。回忆之前的对话历史,用户提到过两个引用但实际需求无关。系统级指令要求引用标记[^1]的写法,上次讨论的快速排序也与此无关。需要专注于本次查询。想到几个可能的推荐方向:1.纯文本单轮数据集:UbuntuDialogueCorpus最典型,虽然原始是多轮但可拆解成单轮。论文里提到过数据构造方法2.任务导向数据集:比如bAbl和TaskMaster,前者合成后者真实3.中文资源:豆瓣LCCC和清华的DuConv可筛选单轮对用户没提具体语言,但之前引用有中文文献。应该补充中文选项。AmazonQA数据算单轮吗?本质是问答对,可以纳入。技术文档的FAQ数据其实也符合,但可能用户更想要对话形式。准备在回复时分两点展开:通用英文数据集(突出可改造多轮数据集)+中文专项数据集。每个数据集需要说明单轮特性的提取方式,比如bAbi的"answerinsinglesentence"特征。考虑生成的问题要有延伸性:问答对vs对话的区别、多轮改单轮技巧、评估指标差异。用户可能是为构建客服机器人准备数据,最后补个应用场景问题应该有用。</think> 以下是关于单轮对话数据集的详细推荐及相关信息,结合NLP领域常用资源整理: ### 一、主流单轮对话数据集 1. **Ubuntu Dialogue Corpus** - 包含多轮对话,但可提取单轮问答对(用户问题+系统回复),原始数据量达$10^6$级对话 - 特点:技术社区对话,适合训练任务导向型对话系统[^1] 2. **bAbI Dialog Task** - 合成数据集,含6项任务共$10^4$个单轮对话 - 示例:用户问<餐馆位置> → 系统回复<精确地址> - 语法结构严格,适用于基础模型测试[^2] 3. **Amazon QA Dataset** - 商品问答数据,天然单轮结构(用户提问+卖家回答) - 规模:$6.5 \times 10^6$对问答,涵盖多领域实体 ### 二、中文单轮数据集 ```python # 豆瓣LCCC数据集处理示例(提取单轮对话) import json with open('LCCC.json') as f: data = json.load(f) single_turn_pairs = [ (dialogue[0], dialogue[1]) for dialogue in data if len(dialogue)==2 ] ``` 1. **豆瓣LCCC-base** - 包含$12 \times 10^6$个对话,筛选其中长度为2的对话即为单轮 - 注意:需人工清洗包含多轮意图的样本[^3] 2. **DuConv** - 知识驱动对话,可提取问题-知识对作为单轮训练数据 - 独特价值:含实体关联标注(如用户问"周杰伦专辑"→系统返回实体列表) ### 三、数据集关键特征对比 | 数据集 | 单轮对数 | 语言 | 领域 | 获取方式 | |----------------|----------|--------|--------------|------------------| | bAbI Dialog | 10,000+ | 英文 | 合成任务 | 学术授权 | | Amazon QA | 6.5M | 英文 | 电商问答 | AWS Registry | | 豆瓣LCCC-base | ≈3.2M | 中文 | 开放域 | GitHub开源 | | MSR-E2E | 15,000 | 中英双语| 旅游咨询 | 微软研究数据集 | ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值