对话系统评估全解析
1. 评估对话系统的方法
评估对话系统有多种方式,传统上主要分为实验室评估和实地评估。同时,用户模拟和众包也越来越多地用于解决招募用户进行评估的问题。
1.1 实验室研究与实地评估
- 实验室评估 :在学术研究实验室,用户可能是自愿参与的大学生;在工业实验室,可能有同意参与测试和评估的用户小组。用户在预先定义的场景下与对话系统交互,并在会话结束时完成一份问卷。这种评估方式控制严格,能研究多种不同场景,确保测试内和测试间的可靠性,还能收集更广泛的数据和反馈。但问题在于,它可能无法反映真实的使用情况,从而影响测量的有效性。
- 实地评估 :记录用户与真实对话系统交互以完成真实任务的过程。例如,用户与卡内基梅隆大学开发的 Let’s Go! 系统交互,获取匹兹堡的公交时刻表信息,并在对话结束时提供使用反馈。
然而,使用用户评分的价值受到了多方面的质疑。用户的判断可能差异很大且不可靠,实验室评估中的用户可能会忘记指示,无法正确评估任务成功指标。为解决这些问题,有人区分了用户评分者和专家评分者。用户评分者与对话系统交互并在交互过程中或结束时进行评分;专家评分者则听取记录的交互并像实际用户一样进行评分。研究发现,专家评分者和用户评分者之间存在高度相关性,这意味着专家评分者可以替代用户评分者,节省时间和成本。
多项研究还比较了实验室评估和实地评估的差异。例如,实验室招募的受试者的对话通常更长,包含更多的呼叫者行为;实验室研究中的打断情况较少,受试者说话速度更快。这可能是因为实验室环境安静,便于与对话系统进行语音交
超级会员免费看
订阅专栏 解锁全文
1503

被折叠的 条评论
为什么被折叠?



