A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Mode

最新推荐文章于 2025-11-24 18:29:32 发布

UnknownBody

最新推荐文章于 2025-11-24 18:29:32 发布

阅读量161

点赞数

CC 4.0 BY-SA版权

分类专栏： LLM Evaluation 文章标签：语言模型人工智能

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/137821658

LLM Evaluation 同时被 2 个专栏收录

97 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM 日更

828 篇文章

已下架不支持订阅

本文介绍CIF-Bench，一个针对大型语言模型（LLM）在中文任务中零样本泛化能力的评估基准。该基准由150个任务和15000个输入输出对组成，测试20个类别，旨在揭示LLM在中文和复杂推理任务中的局限性。实验结果显示最佳模型得分仅52.9%，表明LLM在不熟悉语言环境中的挑战。CIF-Bench旨在推动更适应性、文化敏感和语言多样性的LLM发展。

本文是LLM系列文章，针对《CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models》的翻译。

摘要

大型语言模型（LLM）的进步通过以下说明增强了在各种看不见的自然语言处理（NLP）任务中进行泛化的能力。然而，在中文等资源匮乏的语言中，它们的有效性往往会降低，数据泄露带来的偏见评估加剧了这种情况，使人们怀疑它们在新的语言领域的真实可推广性。作为回应，我们介绍了汉语指令跟随基准（CIF-Bench），旨在评估LLM对汉语的零样本可推广性。CIF Bench由150个任务和15000个输入输出对组成，由母语人士开发，用于测试20个类别的复杂推理和中国文化的细微差别。为了减轻评估偏差，我们只公开发布了一半的数据集，其余的数据集保密，并引入了多样化的指令来最大限度地减少得分差异，共有45000个数据实例。我们对28个选定的LLM的评估显示出明显的性能差距，最佳模型的得分仅为52.9%，这突出了LLM在不太熟悉的语言和任务环境中的局限性。这项工作旨在揭示LLM在处理中文任务方面的当前局限性，利用发布的数据和基准，推动开发更具文化信息和语言多样性的模型。