本文是LLM系列文章,针对《LLM Comparator: Visual Analytics for Side-by-Side Evaluation of
Large Language Models》的翻译。
LLM比较器:大型语言模型并行评估的可视化分析
摘要
自动并排评估已成为评估大型语言模型(LLM)响应质量的一种很有前途的方法。然而,分析这种评估方法的结果会带来可扩展性和可解释性方面的挑战。在本文中,我们介绍了LLM Comparator,这是一种新颖的视觉分析工具,用于交互式分析自动并排评估的结果。该工具支持交互式工作流,用户可以了解模型何时以及为什么比基线模型表现更好或更差,以及两个模型的响应在质量上有何不同。我们与一家大型科技公司的研究人员和工程师密切合作,反复设计和开发了该工具。本文详细介绍了我们确定的用户挑战、工具的设计和开发,以及一项针对定期评估其模型的参与者的观察性研究。
1 引言
2 当前工作流程和设计目标
3 可视化设计与开发
4 观察研究
5 相关工作
6 结论
我们提出了一种新的交互式工具,用于分析自动并排评估方法的结果。该工具旨在使用户能够分析模型何时以及为什么比基线