PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task Completion

828 篇文章

已下架不支持订阅

本文介绍了PPTC基准,用于评估大型语言模型在完成PowerPoint任务的能力,包括创建和编辑PPT文件。研究发现GPT-4在单回合任务中有75.1%的准确率,但会话准确率仅为6%,并揭示了多回合错误积累、长模板处理和多模态理解等问题。基准和分析结果开源,有助于未来LLM和智能助手的研究。

本文是LLM系列文章,针对《PPTC Benchmark: Evaluating Large Language Models for PowerPoint
Task Completion》的翻译。
@TOC

摘要

最近对大型语言模型(LLM)的评估集中在测试其用于基本自然语言任务的零样本/少样本能力,以及将指令转换为工具API的能力。然而,在复杂的多模态环境中,利用复杂工具完成多轮、多模态指令的LLM的评估尚未得到研究。为了解决这一差距,我们引入了PowerPoint任务完成(PPTC)基准,以评估LLM根据用户说明创建和编辑PPT文件的能力。它包含279个多回合会话,涵盖不同的主题和数百条涉及多模式操作的指令。我们还提出了PPTX-Match评估系统,该系统基于预测文件而不是标签API序列来评估LLM是否完成指令,因此它支持各种LLM生成的API序列。我们测量了3个封闭LLM和6个开源LLM。结果表明,GPT-4在单回合对话测试中的准确率为75.1%,优于其他LLM,但在完成整个会话方面面临挑战,会话准确率仅为6%。我们在基准测试中发现了三个主要的错误原因:多回合会话中的错误积累、长PPT模板处理和多模态感知。这些对未来的LLM和代理系统提出了巨大的挑战。我们在https://github.com/gydpku/PPTC上开源了我们的数据、代码和评估系统。

1 引言

2 PPTC基准

3 算法

已下架不支持订阅

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值