本文是LLM系列文章,针对《FAC2E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition》的翻译。
摘要
大型语言模型(LLM)主要通过各种文本理解和生成任务的总体性能来评估。然而,这种范式未能全面区分细粒度的语言和认知技能,导致LLM的能力缺乏足够的解释。在本文中,我们提出了FAC2E,一个基于精细认知的LLM能力评估框架。具体来说,我们通过将语言相关能力和认知相关能力分开,以多维和可解释的方式制定LLM的评估。此外,通过从LLM中提取中间推理,我们进一步将应用特定能力的过程分解为三个子步骤:回忆相关知识、利用知识和解决问题。最后,FAC2E评估每个细粒度能力的每个子步骤,为LLM提供两个方面的诊断。利用FAC2E,我们发现了模型中知识利用率的普遍不足,并提出了一种简单的、知识增强的方法来缓解这一问题。我们的研究结果不仅展示了有希望的性能增强,还突出了LLM未来发展的方向。