本文是LLM系列文章,针对《On the Tip of the Tongue: Analyzing Conceptual Representation in Large Language Models with Reverse-Dictionary Probe》的翻译。
舌尖上:用反向字典法分析大型语言模型中的概念表示
摘要
探索和增强大型语言模型(LLM)的推理能力仍然是一个悬而未决的关键问题。在这里,我们将反向字典任务作为一个案例研究,以探究它们的概念推理能力。我们使用上下文学习来指导模型生成语言描述中隐含的对象概念的术语。模型在该任务中稳健地实现了高精度,并且它们的表示空间对关于对象类别和细粒度特征的信息进行编码。进一步的实验表明,尽管模型之间的句法泛化行为相似,但反向字典任务所探索的概念推理能力预测了模型在多个基准上的一般推理性能。探索性分析表明,用描述来提示LLM⇒单词示例可以在任务解释的表层差异之外引发泛化,并促进更广泛的常识推理问题的模型。
1 引言
2 用于探测概念表示的反向字典
3 概念推理对模型泛化行为的影响
4 相关工作
5 结论
概念是思想和文字的桥梁。在这里,我们采用经典的反向字典任务来探索大型语言模型中的概念推理能力。给定几个描述-词对,LLM可以有效地从复杂的语言描述中推断概念。模型中上下文形成的表示空间在结构上与对象类别的空间一致,并在各个特征维度上保持各个概念之间的细粒度区分。在很大程度上,大型语言模型
本文通过反向字典任务研究大型语言模型(LLM)的概念推理能力,发现模型能有效从描述中推断概念,其表示空间编码了对象类别和特征信息,对一般推理性能有预测作用。尽管存在句法泛化,但模型在概念推理上的表现可能揭示了其更广泛常识推理的潜力。
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



