Evaluating Large Language Models for Generalization and Robustness via Data Compression

最新推荐文章于 2025-11-24 18:29:32 发布

UnknownBody

最新推荐文章于 2025-11-24 18:29:32 发布

阅读量186

点赞数 5

CC 4.0 BY-SA版权

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/136504533

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

本文提出了一种基于无损数据压缩的新方法，用于评估大型语言模型在训练截止后的泛化能力和鲁棒性。通过对比训练和测试阶段的压缩性能，研究了14个模型在不同数据源上的表现，揭示了模型在新闻和代码数据上的推广困难，以及在arXiv论文上的优秀性能。方法和资源已开源。

本文是LLM系列文章，针对《Evaluating Large Language Models for Generalization and Robustness via Data Compression》的翻译。

摘要

现有的评估大型语言模型的方法面临着数据污染、对提示的敏感性和创建基准的高成本等挑战。为了解决这一问题，我们提出了一种基于无损数据压缩的评估方法，该方法测试模型的预测能力在训练截止后是如何泛化的。具体而言，我们收集了2017年至2023年83个月的综合测试数据，并根据模型的训练数据截止值将数据划分为训练阶段和测试阶段。我们测量：1）测试期间的压缩性能，作为对看不见的数据进行泛化的测量；以及2）作为鲁棒性的度量的训练和测试周期之间的性能差距。我们的实验在维基百科、新闻文章、代码、arXiv论文和多模态数据等来源上测试了14个不同大小的代表性大型语言模型。我们发现，许多模型的压缩率在截止日期后显著降低，但Mistral和Llama-2等模型在性能和鲁棒性之间表现出良好的平衡。结果还表明，模型很难在新闻和代码数据上进行推广，但在arXiv论文上效果特别好。我们还发现，上下文大小和tokenize实现对整体压缩性能有很大影响。我们的数据和代码在https://github.com/liyucheng09/llm-compressive上可用.