本文是LLM系列文章,针对《HD-EVAL: Aligning Large Language Model Evaluators Through
Hierarchical Criteria Decomposition》的翻译。
摘要
大型语言模型(LLM)已经成为一种很有前途的替代昂贵的人工评估的方法。然而,基于LLM的评估的一致性和覆盖范围往往受到评估提示和标准的范围和潜在偏差的限制。为了应对这一挑战,我们提出了HD-EVAL,这是一种新的框架,通过分层标准分解将基于LLM评估的评估者与人类偏好迭代地一致。HD-EVAL继承了人类专家评估思维的精髓,通过将给定的评估任务分解为更细粒度的标准,根据估计的人类偏好对其进行聚合,将不重要的标准与归因进行修剪,并进一步分解重要的标准,增强了基于LLM的评估者的一致性。通过将这些步骤集成到迭代一致性训练过程中,我们获得了标准的分层分解,可以在多个粒度级别上全面捕捉自然语言的各个方面。作为一个白盒实现,人工偏好引导聚合器训练效率高,比仅仅依靠提示更容易解释,而且它与模型参数的独立性使其适用于闭源LLM。在三个评估领域进行的广泛实验表明,HD-EVAL在进一步调整最先进的评估人员以及对评估结果的解释和任务本身提供更深入的见解方面具有优势。