第一部分:视频笔记
从模型到应用:
全链条工具体系:
第二部分:技术报告
这份技术报告详细介绍了名为InternLM2的开源大型语言模型,该模型在多个维度上超越了其前代以及诸如ChatGPT和GPT-4等业界领先的模型,并通过创新的预训练与优化技术,在综合评估、长上下文建模及开放主观评测中表现卓越。研究团队来自上海人工智能实验室、商汤集团、香港中文大学和复旦大学等多个学术与产业机构。
InternLM2的发展过程包括预训练、监督微调(Supervised Fine-Tuning, SFT)和来自人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)三个主要阶段。预训练阶段利用海量自然文本数据集,包含数万亿个token,旨在赋予模型广泛的知识储备和基本技能。报告强调了数据质量在预训练中的关键作用,并指出先前的技术报告很少涉及预训练数据处理方法。在此方面,InternLM2细致地描述了如何准备不同类型的数据,包括文本、代码和长上下文数据。
对于提升大型语言模型(LLMs)的上下文长度这一当前热门研究话题,InternLM2采用了Group Query Attention(GQA)机制来降低对长序列推理时的记忆消耗。首先,InternLM2以4千token的上下文进行预训练,随后转而使用高质量的32千令牌文本继续训练。通过局部位置编码外推(LocalLLaMA, 2023)技术,在完成训练后,InternLM2在包含20万上下文的“Needle-in-a-Haystack”测试中展现出了优异性能。
除了基础的预训练之外,研究者还运用监督微调和一种新颖的条件在线强化学习策略——Conditional Online Reinforcement Learning from Human Feedback (COOL RLHF),以解决RLHF过程中可能遇到的不同偏好冲突问题,从而更好地对InternLM2进行对齐与优化。
InternLM2基于超过2万亿高质量预训练语料进行训练,涵盖1.8B、7B和20B三种不同规模的模型版本,适用于多种应用场景。为支持长上下文任务,InternLM2不仅针对长达32千令牌的上下文进行了额外训练,还通过公开模型本身及其训练过程中的各个阶段检查点,便于未来研究者深入探索和进一步改进。
报告中还包括了关于InternLM2如何在特定能力方面的增强训练,即针对推理、数学问题解决和知识记忆等关键能力,专门收集并精心筛选了一个混合高质量检索数据和其他类型开源数据的增强数据集,共计约240亿令牌,并对其进行了严格的过滤和污染检测。通过针对性的微调,InternLM2在编程、推理、问答和考试等方面的表现显著提高。
结论部分总结了InternLM2在客观和主观评价中展现出的出色性能,并提供了详细的模型训练框架、预训练文本数据、代码数据、长文本数据以及对齐数据的说明,为后续研究者提供有价值的指导,以了解如何更有效地准备预训练数据和训练更大规模的模型。此外,报告还展示了在各种基准测试上的具体实验结果和相关度量指标,以评估模型的泛化能力和潜在过拟合情况。