本文是LLM系列文章,针对《PPTC Benchmark: Evaluating Large Language Models for PowerPoint
Task Completion》的翻译。
@TOC
摘要
最近对大型语言模型(LLM)的评估集中在测试其用于基本自然语言任务的零样本/少样本能力,以及将指令转换为工具API的能力。然而,在复杂的多模态环境中,利用复杂工具完成多轮、多模态指令的LLM的评估尚未得到研究。为了解决这一差距,我们引入了PowerPoint任务完成(PPTC)基准,以评估LLM根据用户说明创建和编辑PPT文件的能力。它包含279个多回合会话,涵盖不同的主题和数百条涉及多模式操作的指令。我们还提出了PPTX-Match评估系统,该系统基于预测文件而不是标签API序列来评估LLM是否完成指令,因此它支持各种LLM生成的API序列。我们测量了3个封闭LLM和6个开源LLM。结果表明,GPT-4在单回合对话测试中的准确率为75.1%,优于其他LLM,但在完成整个会话方面面临挑战,会话准确率仅为6%。我们在基准测试中发现了三个主要的错误原因:多回合会话中的错误积累、长PPT模板处理和多模态感知。这些对未来的LLM和代理系统提出了巨大的挑战。我们在https://github.com/gydpku/PPTC上开源了我们的数据、代码和评估系统。
本文介绍了PPTC基准,用于评估大型语言模型在完成PowerPoint任务的能力,包括创建和编辑PPT文件。研究发现GPT-4在单回合任务中有75.1%的准确率,但会话准确率仅为6%,并揭示了多回合错误积累、长模板处理和多模态理解等问题。基准和分析结果开源,有助于未来LLM和智能助手的研究。
已下架不支持订阅
1222

被折叠的 条评论
为什么被折叠?



