书生·浦语大模型开源体系（一）论文精读笔记

最新推荐文章于 2025-12-04 17:20:28 发布

原创

最新推荐文章于 2025-12-04 17:20:28 发布 · 1.6k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#开源 #笔记 #人工智能

本文探讨了开源模型InternLM2通过创新预训练和优化技术，在多维度评估中超越前任，尤其在长文本理解和处理上表现出色。文章详细介绍了InternLM2的预训练过程，涉及文本、代码和长上下文数据，以及如何通过监督微调和COOLRLHF策略解决训练问题。

💗💗💗欢迎来到我的博客，你将找到有关如何使用技术解决问题的文章，也会找到某个技术的学习路线。无论你是何种职业，我都希望我的博客对你有所帮助。最后不要忘记订阅我的博客以获取最新文章，也欢迎在文章下方留下你的评论和反馈。我期待着与你分享知识、互相学习和建立一个积极的社区。谢谢你的光临，让我们一起踏上这个知识之旅！

🍋Abstract

像ChatGPT和GPT-4这样的大型语言模型(llm)的发展引发了关于人工通用智能(AGI)出现的讨论。然而，在开源模型中复制这样的进步是具有挑战性的。本文介绍了一个开源法学硕士InternLM2，它通过创新的预训练和优化技术，在6个维度和30个基准的综合评估、长上下文建模和开放式主观评估方面优于其前身。InternLM2的预训练过程非常详细，突出了各种数据类型的准备，包括文本、代码和长上下文数据。InternLM2有效地捕获长期依赖关系，最初训练4k代币，然后在预训练和微调阶段提升到32k代币，在200k“大海捞针”测试中表现出卓越的性能。InternLM2进一步使用监督微调(SFT)和一种新的基于人类反馈的条件在线强化学习(COOL RLHF)策略进行协调，该策略解决了人类偏好和奖励黑客行为之间的冲突。通过发布不同训练阶段和模型大小的InternLM2模型，我们为社区提供了对模型演变的见解。