纯后训练做出benchmark超过DeepseekV3的模型?

图片

论文地址

https://arxiv.org/pdf/2411.15124

模型是AI2的,他们家也是玩开源的

先看benchmark,几乎是纯用llama3 405B后训练去硬刚出一个gpt4o等级的LLamA405

图片

图片

我们先看之前的机遇Lllama3.1 405B进行全量微调的模型 Hermes 3,看着还没缘模型好(当然如果你去Nous的HF页面下看,它做了一些别的指标超了LM3,但是不是特别常用)

我们先分析为什么全量微调不会比源模型好

学院派(我

图片

,但我肯定也是实干派):没有原始数据分布,微调数据量少,很难对base模型的权重进行有效的调整,所以一般都是base model的原产地来微调效果好,因为它有原始的pretrain数据,所以可以混着一起调整,一般1:3.这样学起来就很泛化效果也好

Nous没有原始数据,自然差点意思

OK,然后从另一面,我们理解一下微调的本质是什么?

你预训练好的模型其实知识能力的储备已经不说到头了吧,反正也大差不差

但是这时候它不能组织明白语言,也回答不好你的问题

夸张一点的早起LLM的例子(看着很邪性,但是我以前确实碰到过

图片

图片

图片

):

你:中国的首都是哪?

LLM: The capital of the United States is Washington, DC.

那你指令微调,supervisor fine tunning 简称SFT的目的就是让它能好好说话。

单独就训练这个具体的事物来讲,和预训练有区别吗?尤其是全量微调(Lora就别参与讨论了)

其实没啥区别,因为你训练的三元素

1- 神经网络:长得一样

2- Loss 函数:没有本质不同,差一不二

3- 训练数据:主要这玩意不一样

我们看训练数据 

一般来讲sft都sft chat模型

chat模型的template一般长这样的json

[

    {

        "role": "system",

        "content": "You are a helpful assistant."

    },

    {

        "role": "user",

        "content": "你为什么生气?"

    },

    {

        "role": "assistant",

        "content": "因为无能。"

    }

]

但是到了模型里要被进行llm能理解的special token,就要求你的sft训练数据这样

<|begin_of_text|>

<|start_header_id|>system<|end_header_id|>

You are a helpful assistant.<|eot_id|>

<|start_header_id|>user<|end_header_id|>

你为什么生气?<|eot_id|>

<|start_header_id|>assistant<|end_header_id|>

因为无能。<|eot_id|>

上面这些<>里的都会被tokenzier定义成特定的token id,以表明对话开始结束之类的说明

然后说Loss函数

Pretrain大家都知道是对next token求loss

SFT是对问题的答案求loss

end_str = "<|start_header_id|>assistant<|end_header_id|>"inputs = tokenizer(batch, max_length=max_length, padding=True, truncation=True)input_ids = inputs["input_ids"]input_len = len(input_ids[0])end_ids = tokenizer(end_str)["input_ids"]end_id_len = len(end_ids)loss_mask = []
for input_id in input_ids:    for i in range(len(input_id) - end_id_len, -1
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值