Optimizing Inference of Large Language Models via Multi-Query Instructions in Meeting Summarization

使用多查询指令优化大型语言模型在会议摘要中的推理效率

最新推荐文章于 2025-11-25 12:11:01 发布

UnknownBody

最新推荐文章于 2025-11-25 12:11:01 发布

阅读量124

点赞数

CC 4.0 BY-SA版权

分类专栏： LLM Daily LLM Inference 文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/138960591

LLM Daily 同时被 2 个专栏收录

1691 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM Inference

60 篇文章

订阅专栏

本文探讨了如何通过在会议摘要任务中使用多查询指令来减少对大型语言模型（LLM）推理端点的调用次数，从而降低成本。实验比较了GPT-4、PaLM-2等模型在单查询和多查询情况下的性能，发现多查询可以提高效率，但只有少数模型能按预期格式生成响应。

本文是LLM系列文章，针对《Query-OPT: Optimizing Inference of Large Language Models via
Multi Query Instructions in Meeting Summarization》的翻译。

摘要

这项工作的重点是基于查询的会议摘要任务，其中生成上下文摘要（会议记录）以响应特定查询。在此任务中使用大型语言模型（LLM）时，即使上下文保持不变，每个新查询也需要对LLM推理端点/API进行新调用。然而，对LLM推理端点的重复调用会显著增加在生产中使用它们的成本，使LLM对于许多真实世界的用例来说不切实际。为了解决这个问题，在本文中，我们研究了在单个提示中组合对相同输入上下文的查询以最小化重复调用是否可以成功地用于会议摘要。在这方面，我们通过比较各种流行的LLM（GPT-4、PaLM-2、LLaMA-2、Mistral和FLAN-T5）在单查询和多查询设置中的性能进行了广泛的实验。我们观察到，虽然大多数LLM倾向于响应多查询指令，但几乎所有LLM（GPT-4除外），即使经过微调，也无法以所需的输出格式正确生成响应。我们得出的结论是，虽然多查询提示可以通过减少对会议摘要任务的推理端点/API的调用来优化推理成本，但这种以预期格式可靠生成响应的能力仅限于某些LLM。