本文是LLM系列文章,针对《A Literature Review and Framework for Human Evaluation of Generative Large Language Models in Healthcare》的翻译。
摘要
随着生成式人工智能 (AI),尤其是大型语言模型 (LLM),继续渗透到医疗保健领域,用人工专家评估来补充传统的自动评估仍然至关重要。理解和评估生成的文本对于确保安全性、可靠性和有效性至关重要。然而,人工评估的繁琐、耗时和非标准化性质为在实践中广泛采用 LLM 带来了重大障碍。本研究回顾了关于医疗保健领域 LLM 人类评估方法的现有文献。我们强调了对标准化和一致的人工评估方法的显着需求。我们广泛的文献检索遵循系统评价和荟萃分析的首选报告项目 (PRISMA) 指南,涵盖 2018 年 1 月至 2024 年 2 月的出版物。这篇综述全面概述了各种医疗保健应用中使用的人体评估方法。该分析考察了各种医学专业对 LLM 的人类评估,涉及评估维度、样本类型和大小、评估者的选择和招募、框架和指标、评估过程以及结果的统计分析等因素。借鉴这些研究中强调的各种评估策略,我们提出了一个全面而实用的生成式 LLM 人类评估框架,命名为 QUEST:信息质量、理解和推理、表达风格和角色、安全和伤害以及信任和信心。该框架旨在通过定义明确的评估维度和提供详细的指南,提高生成式 LLM 在不同医疗保健应用中的人类评估