Evaluating Large Language Models: A Comprehensive Survey

最新推荐文章于 2024-11-06 13:58:21 发布

原创最新推荐文章于 2024-11-06 13:58:21 发布 · 750 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自然语言处理

Survey Paper 同时被 2 个专栏收录

278 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM 日更

828 篇文章

已下架不支持订阅

本文详述了大型语言模型（LLM）的评估，包括知识与能力、对齐和安全评估。LLM虽然展现出广泛应用潜力，但也存在数据泄露和不适当内容的风险。为确保LLM的安全和有益发展，需要全面评估。该调查提供了评估的分类和路线图，涵盖了知识、能力、对齐、安全和专业领域应用，旨在推动对LLM负责任的开发和使用。

本文是LLM系列文章，针对《Evaluating Large Language Models: A Comprehensive Survey》的翻译。

摘要

大型语言模型（LLM）在广泛的任务范围内表现出了非凡的能力。它们引起了人们的极大关注，并被部署在许多下游应用程序中。然而，类似于一把双刃剑，LLM也存在潜在风险。他们可能会遭受私人数据泄露或产生不恰当、有害或误导性的内容。此外，LLM的快速发展引发了人们对在没有足够保障的情况下可能出现的超级智能系统的担忧。
为了有效利用LLM能力并确保其安全和有益的发展，对LLM进行严格和全面的评估至关重要。本次调查旨在为LLM的评估提供一个全景视角。我们将LLM的评估分为三大类：知识和能力评估、对齐评估和安全评估。除了对这三个方面的评估方法和基准进行全面审查外，我们还整理了与LLM在专业领域的表现有关的评估简编，并讨论了涵盖LLM能力、一致性、安全性和适用性评估的综合评估平台的构建。
我们希望这一全面的概述将激发对LLM评估的进一步研究兴趣，最终目标是使评估成为指导LLM负责任发展的基石。我们设想，这将引导他们朝着最大限度地提高社会效益同时最大限度地降低潜在风险的方向发展。相关论文的策划列表已在GitHub存储库中公开。