Llama 2: Open Foundation and Fine-Tuned Chat Models
文章说明来自 2307.09288 (arxiv.org)
Llama 2 是 Meta 开发的一系列预训练和微调的大语言模型,包含 70 亿、130 亿和 700 亿参数等不同规模,旨在提供强大的语言处理能力,同时注重安全性和实用性。论文详细介绍了模型的预训练、微调、安全措施以及评估结果等内容。
LLaMA 开放使用以后,人人可以 fine-tune 大型語言模型的時代開始了 ,如何fine tune 大语言模型,是这篇论文的主要说明

- 模型概述
- 模型发布与用途:Llama 2 包括预训练模型和微调后的 Llama 2 - Chat 模型,可用于商业和研究,有不同参数规模版本,如 7B、13B 和 70B 等,预训练数据不包含 Meta 用户数据145。
- 性能优势:在多个基准测试中表现优于开源模型,与一些闭源模型相当,如在 helpfulness 和 safety 评估中表现出色,其奖励模型在处理人类偏好数据时准确性较高123。
图1:Llama 2-Chat与其他开源和闭源模型相比的有用性人类评估结果。人类评分者在由单圈和多圈提示组成的~4k提示上比较模型世代。该评估的95%置信区间在1%到2%之间。更多细节见第3.4.2节。在审查这些结果时,重要的是要注意,由于提示集的限制、审查指南的主观性、个人评分者的主观性以及比较世代的固有困难,人类评估可能会很嘈杂。
图 2:根据 GPT4,商业许可基线和骆驼 2-Chat 之间的帮助性和安全性胜率 %。为了补充人类评估,我们使用了一个更有能力的模型,不受我们自己的指导。绿色区域表示我们的模型根据 GPT-4 更好。为了消除联系,我们使用了 win/(win + 损失)。模型响应呈现给 GPT-4 的顺序被随机交换以减轻偏差。
- 预训练阶段
- 数据处理与来源:使用新的公开数据混合训练,进行了更严格的数据清洗,训练数据量达 2 万亿个标记,增加了事实性来源的采样以减少幻觉
- 模型架构与训练细节
- 架构改进:采用优化的自回归变压器架构,将上下文长度从 2048 扩展到 4096 tokens,使用分组查询注意力(GQA)提高大模型推理可扩展性,详细对比了不同架构的性能差异
为了创建新的Llama 2模型系列,我们从Touvron等人(2023)中描述的预
- 架构改进:采用优化的自回归变压器架构,将上下文长度从 2048 扩展到 4096 tokens,使用分组查询注意力(GQA)提高大模型推理可扩展性,详细对比了不同架构的性能差异
- 数据处理与来源:使用新的公开数据混合训练,进行了更严格的数据清洗,训练数据量达 2 万亿个标记,增加了事实性来源的采样以减少幻觉


最低0.47元/天 解锁文章
1565

被折叠的 条评论
为什么被折叠?



