The Challenges of Evaluating LLM Applications: An Analysis of Automated, Human, and LLM-Based Approa

题目

评估LLM应用的挑战:自动化、人工和基于LLM的方法分析
在这里插入图片描述

论文地址:https://arxiv.org/pdf/2406.03339

摘要

    聊天机器人从一开始就是自然语言生成的一个有趣的应用。随着新的基于变压器的生成人工智能方法,建立聊天机器人已经变得微不足道。针对特定领域(如医学和心理学)的聊天机器人实现得很快。然而,这不应该分散对评估聊天机器人反应的需要。尤其是因为自然语言生成社区并不完全同意如何有效地评估这样的应用程序。通过这项工作,我们进一步讨论了日益流行的基于LLM的评估的问题,以及它们如何与人类评估相关联。此外,我们引入了一个全面的分解评估机制,可以与人工评估和基于LLM的评估结合使用。我们展示了在一个使用教育报告的聊天机器人实现中使用该方案进行的实验评估的结果,并随后比较了自动化、传统人工评估、因子人工评估和因子LLM评估。结果表明,基于因素的评估对LLM应用中哪些方面需要改进产生了更好的见解,并进一步加强了在主要功能不是直接检索的关键空间中使用人工评估的论点。

LLM,人的评价,评价挑战,基于因素的评价,LLM评价

引言

    在大型语言模型(LLM)API的推动下,聊天机器人开发的前景正在迅速发展。虽然开发的速度令人兴奋,但是构建一个LLM驱动的应用程序和使用LLM构建一个可靠的系统之间还是有差距的。这一挑战需要仔细考虑最终产品是否满足所有要求,并对其进行评估,以测试其与性能和道德标准的一致性。正如[1]所强调的,这个评估过程应该包括技术评估和面向信任的框架。确保运营效率和负责任的使用之间的平衡至关重要。这个过程由于LLM中的常见陷阱而变得更加复杂,因为一些作者[2,3,4,5]提到LLM的某些方面可能会出错,例如幻觉、音调和输出格式。

在这里插入图片描述

图1:每位评估者的李克特量表评分的中位数。每个分支显示了评估者如何根据Blooms分类法中的问题类型对回答进行评级。

    有效的评估有助于改进和维护验证和一致性,以避免常见的陷阱。鉴于聊天机器人等基于LLM的生成性应用的普及,开发有效的评估系统对于研究人员和开发人员来说都是及时的。基于LLM的通用应用程序的开发周期通常包括三个阶段:a)LLM的选择,b)应用程序的迭代开发,以及c)应用程序的操作部署。各种论文[6,7]中讨论的对LLM本身的评估超出了本文的范围。然而,需要注意的是,基础LLM的质量是有效利用其功能并在最终应用中最小化风险的基本组成部分。对于应用程序,开发人员可以遵循不同的开发方法(例如,微调、链接、提示、检索增强生成(RAG)、结合知识图的LLM搜索等)。)并且每种方法都需要定制的评估步骤,例如微调或提示风格中使用的数据质量[8],或者RAG中的块大小和数量[9]。本文探讨了评估基于LLM的聊天机器人生成的最终响应(即输出)的三种基本方法,即自动度量、人工评估和基于LLM的评估。关于人工评估,我们研究了优先评估和因子评估方法。

背景

    聊天机器人以解决用户查询的方式与用户交互。一些聊天机器人是特定领域的[10],而另一些是通用聊天机器人[11]。评估聊天机器人很大程度上取决于聊天机器人的预期用途和专业化程度。在回顾关于这一主题的16篇论文时,我们总结了评估中需要注意的几个关键组成部分;其中,聊天机器人预期目的的明确定义(例如,用例-指定业务目标或客户期望,以及用户与应用程序的交互)至关重要。这种清晰性有助于集中评估聊天机器人是否达到其指定目的。

    表1中描述的组件表

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值