PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task Completion

最新推荐文章于 2025-12-12 10:01:40 发布

UnknownBody

最新推荐文章于 2025-12-12 10:01:40 发布

阅读量231

点赞数

CC 4.0 BY-SA版权

文章标签：语言模型 powerpoint 人工智能

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/134282070

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

本文介绍了PPTC基准，用于评估大型语言模型在完成PowerPoint任务的能力，包括创建和编辑PPT文件。研究发现GPT-4在单回合任务中有75.1%的准确率，但会话准确率仅为6%，并揭示了多回合错误积累、长模板处理和多模态理解等问题。基准和分析结果开源，有助于未来LLM和智能助手的研究。

本文是LLM系列文章，针对《PPTC Benchmark: Evaluating Large Language Models for PowerPoint
Task Completion》的翻译。
@TOC

摘要

最近对大型语言模型（LLM）的评估集中在测试其用于基本自然语言任务的零样本/少样本能力，以及将指令转换为工具API的能力。然而，在复杂的多模态环境中，利用复杂工具完成多轮、多模态指令的LLM的评估尚未得到研究。为了解决这一差距，我们引入了PowerPoint任务完成（PPTC）基准，以评估LLM根据用户说明创建和编辑PPT文件的能力。它包含279个多回合会话，涵盖不同的主题和数百条涉及多模式操作的指令。我们还提出了PPTX-Match评估系统，该系统基于预测文件而不是标签API序列来评估LLM是否完成指令，因此它支持各种LLM生成的API序列。我们测量了3个封闭LLM和6个开源LLM。结果表明，GPT-4在单回合对话测试中的准确率为75.1%，优于其他LLM，但在完成整个会话方面面临挑战，会话准确率仅为6%。我们在基准测试中发现了三个主要的错误原因：多回合会话中的错误积累、长PPT模板处理和多模态感知。这些对未来的LLM和代理系统提出了巨大的挑战。我们在https://github.com/gydpku/PPTC上开源了我们的数据、代码和评估系统。