1.课程笔记
讲师: 陈恺,上海人工智能实验室青年科学家
主题: 书生·浦语大模型全链路开源体系介绍
视频录屏: Bilibili视频链接
1.1开源历程
7月升级支持8K语境和工具体系,8月发布对话模型和智能体框架,9月发布中等尺寸模型与优化工具链
1.2体系
1.3 主要亮点
1.4 模型到应用的流程
1.5 整个开源体系的架构
覆盖数据到预训练、微调、部署和评测等全流程
1.6 总结
详细介绍了书生葡语大模型的全链路开源体系的发展历程和特点。大模型已成为通用人工智能的重要途径,能够解决多种任务和多种模态。书生葡语大模型具有超长上下文能力,综合性能得到全面提升,能够实现结构化创作和可靠的数据分析。同时,模型还强化了内生计算能力和代码解释器,在多个能力维度上都取得了不错的评测结果。
2.InternLM2技术报告要点
InternLM2
InternLM2是一个开源的大型语言模型(LLM),在多个维度和基准测试中表现出色,特别是在长文本建模和开放式主观评估方面。该模型通过创新的预训练和优化技术,在六个维度和30个基准测试中超越了前辈模型。
InternLM2的预训练过程非常详细,强调了包括文本、代码和长文本数据在内的多样化数据类型的准备工作。该模型最初在4k文本上进行训练,然后进入32k文本的预训练和微调阶段,表现出在200k个“针堆”测试中的卓越性能。InternLM2还通过监督式微调(SFT)和新颖的条件在线强化学习(COOL RLHF)策略进行了进一步的对齐,该策略解决了冲突的人类偏好和奖励黑客问题。通过发布不同训练阶段和模型大小的InternLM2模型,研究者为社区提供了模型演变的洞察。
报告还介绍了InternLM2的基础设施,包括用于模型训练的InternEvo框架,以及模型结构的选择,特别是对Transformer架构的坚持和优化。报告详细描述了预训练数据的准备过程,包括文本数据、代码数据和长文本数据的处理,以及预训练设置和阶段。
在对齐方面,报告讨论了如何通过监督式微调(SFT)和从人类反馈中学习的强化学习(RLHF)来确保模型遵循人类指令并与人类价值观保持一致。特别地,报告引入了条件奖励模型和在线RLHF来协调各种偏好,并使用近端策略优化(PPO)来减少每个阶段中出现的奖励黑客行为。
报告还提供了对InternLM2在各种下游任务上的性能评估和分析,包括综合考试、语言和知识、推理和数学、编码、长文本建模以及工具利用。此外,报告还讨论了数据污染问题,并提供了对InternLM2在不同数据集上的污染评估。
最后,报告总结了InternLM2的主要贡献,包括模型的卓越性能、为长文本设计的200k上下文窗口、全面的数据准备指导、创新的RLHF训练技术,并通过开源不同大小的模型以及预训练和RLHF训练前后的模型,促进了社区对模型发展的分析。