LLM文章阅读:Baichuan 2 干货

如有转载,请注明出处。欢迎关注微信公众号:低调奋进。打算开始写LLM系列文章,主要从数据、训练框架、对齐等方面进行LLM整理。

Baichuan 2: Open Large-scale Language Models

原始文章链接

https://cdn.baichuan-ai.com/paper/Baichuan2-technical-report.pdf

github

https://github.com/baichuan-inc

hugginggface 

https://huggingface.co/baichuan-inc


训练LLM的同行可以精读文章llama、llama2和baichuan2等文章,干货较多。本文不做翻译,主要罗列个人关注的重点。阅读本文的前提是已经对LLM熟悉,最好已经积累一定训练经验。本文干货较多,有的实验可以作为自己试验的指向标。

同时想阅读LLM的综述文章可以读以下文章:

A Survey of Large Language Models

https://arxiv.org/pdf/2303.18223.pdf

Large Language Models

https://arxiv.org/pdf/2307.05782.pdf

A Comprehensive Overview of Large Language Models

https://arxiv.org/pdf/2307.06435.pdf

A Survey on Evaluation of Large Language Models

https://arxiv.org/pdf/2307.03109.pdf

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

https://arxiv.org/pdf/2303.10475.pdf

模型名称

Baichuan 2-7b, Baichuan 2-13b,
Baichuan 2-7b-Chat, Baichuan 2

模型大小

7b, 13b

支持语言

多语言

模型具体参数

预训练数据

2.6 T tokens

模型tokenizer

预训练数据分类占比

预训练数据处理流程

预训练改进点

NormHead, Max-z loss

模型

SwiGLU、xFormers、RMSnorm

训练框架

Megatron-LM + deepspeed(zero3)

预训练参数

BFloat16、AdamW(β1=0.9,  β2=0.95,warm_up=2000, lr=2e-4(7b),1.4e-4(13b)

训练硬件

1024 *A800 (80G)

对齐SFT数据

100k sft (人工标注校验)

Safety工作

Pretraining stage, alignment stage

对齐RLHF流程

实验一:NormHead

实验二:7b, 13b预训练 loss

 

实验三:Scaling Laws

 


 

实验四:同尺寸预训练模型对比

实验五:同尺寸预训练模型垂直领域对比

实验六:预训练多语种

实验七:Safety 评估

实验八:chat模型safety评估

实验九:训练过程评估

训练风向标



 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值