文本对话构建与系统评估全解析
在对话系统构建领域,尽管已经取得了一定的成功,但训练数据的瓶颈问题仍然存在。在大多数问题领域,聊天机器人的设计者往往难以获取到质量和数量都符合要求的训练对话数据集。因此,他们不得不寻找替代的、质量较低的数据集,并应用诸如迁移学习等技术。然而,这样做的结果是,对话的相关性和连贯性常常不尽如人意。
1. 从文本构建对话的机制
我们发现了一种将各种风格和体裁的段落文本转换为对话形式的通用机制。具体来说,就是将段落拆分为文本片段,这些片段作为一组答案,然后从其中一些文本片段自动生成问题。将文本 T 构建为对话的问题可以表述为将其拆分为一系列答案 A = [A1…An],以形成对话 [A1, < Q1, A2 > , …, < Qn - 1, An >],其中 Ai 回答 Ai - 1 以及可能的先前问题,并且 ∪Ai = T。Qi - 1 需要通过语言手段和泛化从 Ai 的全部或部分内容中推导出来,有时还需要一些创造力,以使这些问题听起来自然。
对话生成与一般的内容(句子)生成问题有一定的关联,但问题应该比诸如神经序列到序列等方法可能生成的问题更具针对性。问题生成从一般的问答问题中分支出来,受到了越来越多的关注。其任务是根据答案和相应的文档生成自然语言问题。在众多应用中,问题生成已被用于改进问答系统。
对话从文本中形成遵循以下规则:一旦核心话语单元(nucleus EDU)结束,在卫星话语单元(satellite EDU)开始之前,插入针对该卫星 EDU 的问题。从文本作者和提问者之间的对话流程来看,提问者“打断”作者提出问题,使得卫星 EDU 以及可能的后续文本成为该问题的答案。这个问题应该是关于核心中的实体,但
超级会员免费看
订阅专栏 解锁全文
4284

被折叠的 条评论
为什么被折叠?



