本文是LLM系列文章,针对《CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models》的翻译。
摘要
大型语言模型(LLM)的进步通过以下说明增强了在各种看不见的自然语言处理(NLP)任务中进行泛化的能力。然而,在中文等资源匮乏的语言中,它们的有效性往往会降低,数据泄露带来的偏见评估加剧了这种情况,使人们怀疑它们在新的语言领域的真实可推广性。作为回应,我们介绍了汉语指令跟随基准(CIF-Bench),旨在评估LLM对汉语的零样本可推广性。CIF Bench由150个任务和15000个输入输出对组成,由母语人士开发,用于测试20个类别的复杂推理和中国文化的细微差别。为了减轻评估偏差,我们只公开发布了一半的数据集,其余的数据集保密,并引入了多样化的指令来最大限度地减少得分差异,共有45000个数据实例。我们对28个选定的LLM的评估显示出明显的性能差距,最佳模型的得分仅为52.9%,这突出了LLM在不太熟悉的语言和任务环境中的局限性。这项工作旨在揭示LLM在处理中文任务方面的当前局限性,利用发布的数据和基准,推动开发更具文化信息和语言多样性的模型。