A Literature Review and Framework for Human Evaluation of Generative Large Language Models_a framework for human evaluation of large language-优快云博客

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/141992794

本文是LLM系列文章，针对《A Literature Review and Framework for Human Evaluation of Generative Large Language Models in Healthcare》的翻译。

摘要

随着生成式人工智能（AI），尤其是大型语言模型（LLM），继续渗透到医疗保健领域，用人工专家评估来补充传统的自动评估仍然至关重要。理解和评估生成的文本对于确保安全性、可靠性和有效性至关重要。然而，人工评估的繁琐、耗时和非标准化性质为在实践中广泛采用 LLM 带来了重大障碍。本研究回顾了关于医疗保健领域 LLM 人类评估方法的现有文献。我们强调了对标准化和一致的人工评估方法的显着需求。我们广泛的文献检索遵循系统评价和荟萃分析的首选报告项目（PRISMA）指南，涵盖 2018 年 1 月至 2024 年 2 月的出版物。这篇综述全面概述了各种医疗保健应用中使用的人体评估方法。该分析考察了各种医学专业对 LLM 的人类评估，涉及评估维度、样本类型和大小、评估者的选择和招募、框架和指标、评估过程以及结果的统计分析等因素。借鉴这些研究中强调的各种评估策略，我们提出了一个全面而实用的生成式 LLM 人类评估框架，命名为 QUEST：信息质量、理解和推理、表达风格和角色、安全和伤害以及信任和信心。该框架旨在通过定义明确的评估维度和提供详细的指南，提高生成式 LLM 在不同医疗保健应用中的人类评估