交互质量评估与开源对话系统研究
在对话系统的研究中,交互质量评估以及开源系统的开发是重要的研究方向。下面我们将详细探讨交互质量评估的相关实验以及HALEF开源对话系统的情况。
交互质量评估实验
为了评估交互质量(IQ),研究人员对LEGO语料库进行了扩展,加入了201个来自美国宾夕法尼亚州匹兹堡市Let’s Go公交信息系统的通话,并由三位专家对新通话进行了IQ标签标注。在这个过程中,使用了三种分类算法进行评估。
分类算法
- 支持向量机(SVM) :使用线性核,在交换级别进行十折交叉验证。具体操作是将交换分配到十个子集中的一个,不考虑其所属的通话。在每一折中,选择一个子集进行评估,其余九个用于训练。
- 条件隐马尔可夫模型(CHMM) :将IQ识别视为序列识别问题,使用JaCHMM库。由于之前实验因数据不足导致性能不佳,此次使用LEGOv2语料库重复实验,在通话级别进行六折交叉验证,将每个完整通话分配到六个子集中的一个。
- 规则归纳(RI) :为了研究其泛化能力,进行了跨语料库实验,不进行交叉验证。
评估指标
- 未加权平均召回率(UAR) :定义为所有类别的召回率之和除以类别数。公式为:
[UAR = \frac{1}{|C|} \sum_{c \in C} r_c]
其中,(r_c) 为类别 (c) 的召回率,计算公式为:
[r_c = \frac{1}
超级会员免费看
订阅专栏 解锁全文
990

被折叠的 条评论
为什么被折叠?



