Evaluating Large Language Models for Generalization and Robustness via Data Compression

828 篇文章

已下架不支持订阅

本文提出了一种基于无损数据压缩的新方法,用于评估大型语言模型在训练截止后的泛化能力和鲁棒性。通过对比训练和测试阶段的压缩性能,研究了14个模型在不同数据源上的表现,揭示了模型在新闻和代码数据上的推广困难,以及在arXiv论文上的优秀性能。方法和资源已开源。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Evaluating Large Language Models for Generalization and Robustness via Data Compression》的翻译。

通过数据压缩评估大型语言模型的通用性和鲁棒性

摘要

现有的评估大型语言模型的方法面临着数据污染、对提示的敏感性和创建基准的高成本等挑战。为了解决这一问题,我们提出了一种基于无损数据压缩的评估方法,该方法测试模型的预测能力在训练截止后是如何泛化的。具体而言,我们收集了2017年至2023年83个月的综合测试数据,并根据模型的训练数据截止值将数据划分为训练阶段和测试阶段。我们测量:1)测试期间的压缩性能,作为对看不见的数据进行泛化的测量;以及2)作为鲁棒性的度量的训练和测试周期之间的性能差距。我们的实验在维基百科、新闻文章、代码、arXiv论文和多模态数据等来源上测试了14个不同大小的代表性大型语言模型。我们发现,许多模型的压缩率在截止日期后显著降低,但Mistral和Llama-2等模型在性能和鲁棒性之间表现出良好的平衡。结果还表明,模型很难在新闻和代码数据上进行推广,但在arXiv论文上效果特别好。我们还发现,上下文大小和tokenize实现对整体压缩性能有很大影响。我们的数据和代码在https://github.com/liyucheng09/llm-compressive

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值