GALE系统评估:用户研究与实用评估
1. 用户研究结论
在一系列研究中,我们得出了几个重要结论。
- 用户研究的独特价值 :通过用户研究能发现一些在“批量模式”实验中难以察觉的情况。就像在开发中用TER预测人类评估的翻译错误率(HTER)一样,我们也应该用HTER预测实际效用,并且定期通过实际用户研究来验证这个预测。虽然用户研究成本高于HTER评估(HTER评估又比自动TER评分昂贵得多),所以不必每年都进行用户研究,但如果不定期开展用户研究,就难以确定研发方向是否正确。
- 用户研究的差异 :用户研究并非千篇一律。高度结构化的用户研究在开发早期聚焦系统能力问题时很有用,但如果要在系统设计和探索系统最有效使用方式之间迭代,就需要在某些阶段进行尽可能接近实际应用场景的研究。为了在成本和洞察力之间达到最佳平衡,可能需要一系列越来越真实的研究。例如,实际情报分析师使用系统时,发现之前在学生身上观察到的某些行为(如寻求背景信息)在实际分析中并不常见,因为实际分析师本身已有更多背景知识。
- 跨研究社区合作的重要性 :形成性评估过程最大的好处可能是在研究社区之间搭建了桥梁。就像GALE项目让语音和翻译研究人员合作研究如何最好地翻译口语内容一样,我们让组件开发者、系统开发者和实际用户(即过程开发者)走到了一起。毕竟,整个流程最终的落脚点是系统的使用,而不仅仅是转录、翻译、检索、提取或总结。
2. GALE项目实用评估概述
GALE项目开发的系统旨在通过一个支持多语言文本和音频转录、翻译和提炼的综合系统,提高用户获取信息的及时性和质量。实用评估的
超级会员免费看
订阅专栏 解锁全文
22

被折叠的 条评论
为什么被折叠?



