本文是LLM系列文章,针对《Reason from Fallacy: Enhancing Large Language Models’ Logical Reasoning through Logical Fallacy Understanding》的翻译。
摘要
大型语言模型(LLMs)在许多推理任务中表现良好,但它们仍然难以处理包括逻辑推理在内的一些复杂的推理任务。LLM在逻辑推理方面表现不佳的一个不可忽视的原因是他们忽视了正确理解逻辑谬误。为了评估LLMs的逻辑谬误理解能力(LFU),本文从WHAT、WHY和HOW三个认知维度提出了五个具体任务。针对这些LFU任务,我们成功构建了一个基于GPT-4的新数据集LFUD,并辅以少量的人工努力。我们广泛的实验证明,我们的LFUD不仅可以用于评估LLM的LFU能力,还可以对LLM进行微调,以显著提高逻辑推理的性能。
1 引言
2 相关工作
3 数据集构造方法
4 评估
5 结论
为了评估LLMs的LFU表现,我们从三个认知维度提出了五个具体任务——什么、为什么和如何。针对这些任务,我们构建了一个高质量的数据集LFUD,我们的大量实验