Can Large Language Models Understand Real-World Complex Instructions?

最新推荐文章于 2025-11-24 18:29:32 发布

UnknownBody

最新推荐文章于 2025-11-24 18:29:32 发布

阅读量806

点赞数

CC 4.0 BY-SA版权

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/133710547

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

本文介绍了一项关于大型语言模型（LLM）理解现实世界复杂指令的研究。尽管LLM展现出理解人类指令的能力，但在处理涉及多任务、长上下文和异构信息的复杂指令时仍有困难。为填补评估这一能力的基准空白，作者提出了CELLO基准，包括8个复杂指令特征和全面的评估数据集。此外，他们还建立了新的评估标准和指标，通过实验对比了不同LLM的表现。CELLO资源已开源。

本文是LLM系列文章，针对《Can Large Language Models Understand Real-World Complex Instructions?》的翻译。

摘要

大型语言模型(llm)可以理解人类指令，显示出它们在传统NLP任务之外的实用应用潜力。然而，它们仍然在与复杂的指令作斗争，这些指令可能是需要多个任务和约束的复杂任务描述，也可能是包含长上下文、噪声、异构信息和多回合格式的复杂输入。由于这些特性，llm经常忽略任务描述中的语义约束，生成不正确的格式，违反长度或样本计数约束，并且不忠实于输入文本。现有的基准不足以评估LLM理解复杂指令的能力，因为它们是封闭和简单的。为了弥补这一差距，我们提出了CELLO，一个评估LLM系统地遵循复杂指令的能力的基准。我们为复杂的指令设计了8个特征，并从现实场景中构建了一个全面的评估数据集。我们还建立了四个标准，并制定了相应的度量标准，因为目前的标准是不充分的，有偏差的或过于严格和粗粒度的。我们通过大量的实验比较了具有代表性的汉语模型和英语模型在遵循复杂指令方面的表现。CELLO的资源可在https://github.com/Abbey4799/CELLO上公开获取。