本文是LLM系列文章,针对《Query-OPT: Optimizing Inference of Large Language Models via
Multi Query Instructions in Meeting Summarization》的翻译。
摘要
这项工作的重点是基于查询的会议摘要任务,其中生成上下文摘要(会议记录)以响应特定查询。在此任务中使用大型语言模型(LLM)时,即使上下文保持不变,每个新查询也需要对LLM推理端点/API进行新调用。然而,对LLM推理端点的重复调用会显著增加在生产中使用它们的成本,使LLM对于许多真实世界的用例来说不切实际。为了解决这个问题,在本文中,我们研究了在单个提示中组合对相同输入上下文的查询以最小化重复调用是否可以成功地用于会议摘要。在这方面,我们通过比较各种流行的LLM(GPT-4、PaLM-2、LLaMA-2、Mistral和FLAN-T5)在单查询和多查询设置中的性能进行了广泛的实验。我们观察到,虽然大多数LLM倾向于响应多查询指令,但几乎所有LLM(GPT-4除外),即使经过微调,也无法以所需的输出格式正确生成响应。我们得出的结论是,虽然多查询提示可以通过减少对会议摘要任务的推理端点/API的调用来优化推理成本,但这种以预期格式可靠生成响应的能力仅限于某些LLM。
使用多查询指令优化大型语言模型在会议摘要中的推理效率

本文探讨了如何通过在会议摘要任务中使用多查询指令来减少对大型语言模型(LLM)推理端点的调用次数,从而降低成本。实验比较了GPT-4、PaLM-2等模型在单查询和多查询情况下的性能,发现多查询可以提高效率,但只有少数模型能按预期格式生成响应。
订阅专栏 解锁全文

202

被折叠的 条评论
为什么被折叠?



