An Effective Approach for Extreme Large Language Model Compression

最新推荐文章于 2025-11-25 12:11:01 发布

UnknownBody

最新推荐文章于 2025-11-25 12:11:01 发布

阅读量113

点赞数

CC 4.0 BY-SA版权

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/134290641

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

本文提出了一种名为RetriKT的新方法，用于将大型语言模型的知识有效压缩到极小规模的模型中。通过构建知识库并使用软提示调整和PPO强化学习，该方法在低资源条件下显著提升了小规模模型在SuperGLUE和GLUE基准测试中的性能。

本文是LLM系列文章，针对《Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression》的翻译。

摘要

大规模预训练语言模型（LLM）在各种自然语言处理（NLP）任务中表现出了卓越的性能。然而，这些模型的巨大规模给它们在现实应用中的部署带来了巨大的挑战。虽然已经提出了许多模型压缩技术，但当模型规模存在显著差距时，大多数技术都不太适合实现极端的模型压缩。在本文中，我们介绍了一种新的压缩范式，称为基于检索的知识迁移（RetriKT），它有效地将LLM的知识迁移到极小规模的模型（例如，1%）。特别是，我们的方法从LLM中提取知识来构建知识库，小规模模型可以从中检索相关信息并利用这些信息进行有效推理。为了提高模型的质量，采用了软提示调整和近端策略优化（PPO）强化学习技术。在SuperGLUE和GLUE基准测试的低资源任务上进行了广泛的实验。结果表明，所提出的方法通过利用LLM的知识显著提高了小规模模型的性能。

1 引言

2 相关工作

3 方法

4 实验设置

5 实验结果与分析

6 结论

我们的研究解决了压缩LLM的任务，并引入了一种开创性的压缩范式，称为基于检索的知识迁移。这种方法通过创建知识库，有效地将LLM的知识迁移到小规模模型中，使小模型能够在推理过程中检索相关信息。通过在常用基准上进行的大量实验，我们证明了我们的框架通过利用LLM中包含的知识，大大提高了小规模模型的性能。在未来的研究中，我们计划研究我们提出的方法在更大的语言模型（如T5-11B）上的应

了解本专栏