19、自然语言处理系统评估：方法、指标与挑战-优快云博客

本文链接：https://blog.youkuaiyun.com/solidity8miner/article/details/151144975

自然语言处理系统评估：方法、指标与挑战

1. 引言

在自然语言处理（NLP）领域，评估工作至关重要。NLP 研究者通常研究自然发生的语料库，这些语料库的变化受到语言使用者的目标、模态（文本与语音）、预期受众、体裁、主题等因素的限制。评估对于确定 NLP 系统的结果在语料库内部和跨语料库的泛化程度起着关键作用。同时，评估在定义基准数据集和适用于各类 NLP 应用的指标方面也发挥着重要作用，没有这些，就无法对不同系统和方法进行比较。

2. 评估的四个维度

评估可从四个维度进行考量：
- 内在评估与外在评估 ：内在评估测试系统实现其目标的程度，而外在评估则在系统的操作环境中对其进行评级，包括系统的效率和可接受性等方面，还会考虑使用该系统的人员。外在评估能更好地体现系统的实际效用，并为组件开发者提供基于效用因素的反馈。组件技术的评估通常是内在的，但在消融研究中也可以是外在的，即对包含和不包含特定组件的系统进行操作评估。
- 独立应用评估与组件评估 ：独立应用评估针对特定的 NLP 任务，涉及从语言或数据输入到语言或非语言数据输出的映射，如机器翻译、信息提取、拼写纠正和自动摘要等。组件技术则是从一种表示层次映射到另一种表示层次，本身并不构成一个独立的应用，例如解析、词义消歧、共指消解、句子规划等。独立应用可以包含组件技术，并且组件技术和独立应用都可以采用玻璃盒评估（评估系统内部模块）或黑盒评估（仅评估系统的输入和输出），黑盒评估实施起来相对容易，但通常缺乏深度洞察。
- 手动评估与自动指标评估 ：评估可以使用手动评估或自动指标。例如，曾经广泛使