本文是LLM系列文章,针对《Evaluating Large Language Models for Generalization and Robustness via Data Compression》的翻译。
摘要
现有的评估大型语言模型的方法面临着数据污染、对提示的敏感性和创建基准的高成本等挑战。为了解决这一问题,我们提出了一种基于无损数据压缩的评估方法,该方法测试模型的预测能力在训练截止后是如何泛化的。具体而言,我们收集了2017年至2023年83个月的综合测试数据,并根据模型的训练数据截止值将数据划分为训练阶段和测试阶段。我们测量:1)测试期间的压缩性能,作为对看不见的数据进行泛化的测量;以及2)作为鲁棒性的度量的训练和测试周期之间的性能差距。我们的实验在维基百科、新闻文章、代码、arXiv论文和多模态数据等来源上测试了14个不同大小的代表性大型语言模型。我们发现,许多模型的压缩率在截止日期后显著降低,但Mistral和Llama-2等模型在性能和鲁棒性之间表现出良好的平衡。结果还表明,模型很难在新闻和代码数据上进行推广,但在arXiv论文上效果特别好。我们还发现,上下文大小和tokenize实现对整体压缩性能有很大影响。我们的数据和代码在https://github.com/liyucheng09/llm-compressive上