自然语言处理系统评估:方法、指标与挑战
1. 引言
在自然语言处理(NLP)领域,评估工作至关重要。NLP 研究者通常研究自然发生的语料库,这些语料库的变化受到语言使用者的目标、模态(文本与语音)、预期受众、体裁、主题等因素的限制。评估对于确定 NLP 系统的结果在语料库内部和跨语料库的泛化程度起着关键作用。同时,评估在定义基准数据集和适用于各类 NLP 应用的指标方面也发挥着重要作用,没有这些,就无法对不同系统和方法进行比较。
2. 评估的四个维度
评估可从四个维度进行考量:
- 内在评估与外在评估 :内在评估测试系统实现其目标的程度,而外在评估则在系统的操作环境中对其进行评级,包括系统的效率和可接受性等方面,还会考虑使用该系统的人员。外在评估能更好地体现系统的实际效用,并为组件开发者提供基于效用因素的反馈。组件技术的评估通常是内在的,但在消融研究中也可以是外在的,即对包含和不包含特定组件的系统进行操作评估。
- 独立应用评估与组件评估 :独立应用评估针对特定的 NLP 任务,涉及从语言或数据输入到语言或非语言数据输出的映射,如机器翻译、信息提取、拼写纠正和自动摘要等。组件技术则是从一种表示层次映射到另一种表示层次,本身并不构成一个独立的应用,例如解析、词义消歧、共指消解、句子规划等。独立应用可以包含组件技术,并且组件技术和独立应用都可以采用玻璃盒评估(评估系统内部模块)或黑盒评估(仅评估系统的输入和输出),黑盒评估实施起来相对容易,但通常缺乏深度洞察。
- 手动评估与自动指标评估 :评估可以使用手动评估或自动指标。例如,曾经广泛使
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



