纯后训练做出benchmark超过DeepseekV3的模型？

最新推荐文章于 2025-12-16 15:16:39 发布

原创

最新推荐文章于 2025-12-16 15:16:39 发布 · 964 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #深度学习 #人工智能

论文地址

https://arxiv.org/pdf/2411.15124

模型是AI2的，他们家也是玩开源的

先看benchmark，几乎是纯用llama3 405B后训练去硬刚出一个gpt4o等级的LLamA405

我们先看之前的机遇Lllama3.1 405B进行全量微调的模型 Hermes 3，看着还没缘模型好（当然如果你去Nous的HF页面下看，它做了一些别的指标超了LM3，但是不是特别常用）

我们先分析为什么全量微调不会比源模型好

学院派（我

，但我肯定也是实干派）：没有原始数据分布，微调数据量少，很难对base模型的权重进行有效的调整，所以一般都是base model的原产地来微调效果好，因为它有原始的pretrain数据，所以可以混着一起调整，一般1:3.这样学起来就很泛化效果也好

Nous没有原始数据，自然差点意思

OK，然后从另一面，我们理解一下微调的本质是什么？

你预训练好的模型其实知识能力的储备已经不说到头了吧，反正也大差不差

但是这时候它不能组织明白语言，也回答不好你的问题

夸张一点的早起LLM的例子（看着很邪性，但是我以前确实碰到过

）：

你：中国的首都是哪？

LLM: The capital of the United States is Washington, DC.

那你指令微调，supervisor fine tunning 简称SFT的目的就是让它能好好说话。

单独就训练这个具体的事物来讲，和预训练有区别吗？尤其是全量微调（Lora就别参与讨论了）

其实没啥区别，因为你训练的三元素

1- 神经网络：长得一样

2- Loss 函数：没有本质不同，差一不二

3- 训练数据：主要这玩意不一样

我们看训练数据

一般来讲sft都sft chat模型

chat模型的template一般长这样的json

[

{

"role": "system",

"content": "You are a helpful assistant."

{

"role": "user",

"content": "你为什么生气?"

{

"role": "assistant",

"content": "因为无能。"

}

]

但是到了模型里要被进行llm能理解的special token，就要求你的sft训练数据这样

<|begin_of_text|>

<|start_header_id|>system<|end_header_id|>

You are a helpful assistant.<|eot_id|>

<|start_header_id|>user<|end_header_id|>

你为什么生气？<|eot_id|>

<|start_header_id|>assistant<|end_header_id|>

因为无能。<|eot_id|>

上面这些<>里的都会被tokenzier定义成特定的token id，以表明对话开始结束之类的说明

然后说Loss函数

Pretrain大家都知道是对next token求loss

SFT是对问题的答案求loss

end_str = "<|start_header_id|>assistant<|end_header_id|>"inputs = tokenizer(batch, max_length=max_length, padding=True, truncation=True)input_ids = inputs["input_ids"]input_len = len(input_ids[0])end_ids = tokenizer(end_str)["input_ids"]end_id_len = len(end_ids)loss_mask = []
for input_id in input_ids:    for i in range(len(input_id) - end_id_len, -1