纯后训练做出benchmark超过DeepseekV3的模型?

图片

论文地址

https://arxiv.org/pdf/2411.15124

模型是AI2的,他们家也是玩开源的

先看benchmark,几乎是纯用llama3 405B后训练去硬刚出一个gpt4o等级的LLamA405

图片

图片

我们先看之前的机遇Lllama3.1 405B进行全量微调的模型 Hermes 3,看着还没缘模型好(当然如果你去Nous的HF页面下看,它做了一些别的指标超了LM3,但是不是特别常用)

我们先分析为什么全量微调不会比源模型好

学院派(我

图片

,但我肯定也是实干派):没有原始数据分布,微调数据量少,很难对base模型的权重进行有效的调整,所以一般都是base model的原产地来微调效果好,因为它有原始的pretrain数据,所以可以混着一起调整,一般1:3.这样学起来就很泛化效果也好

Nous没有原始数据,自然差点意思

OK,然后从另一面,我们理解一下微调的本质是什么?

你预训练好的模型其实知识能力的储备已经不说到头了吧,反正也大差不差

但是这时候它不能组织明白语言,也回答不好你的问题

夸张一点的早起LLM的例子(看着很邪性,但是我以前确实碰到过

图片

图片

图片

):

你:中国的首都是哪?

LLM: The capital of the United States is Washington, DC.

那你指令微调,supervisor fine tunning 简称SFT的目的就是让它能好好说话。

单独就训练这个具体的事物来讲,和预训练有区别吗?尤其是全量微调(Lora就别参与讨论了)

其实没啥区别,因为你训练的三元素

1- 神经网络:长得一样

2- Loss 函数:没有本质不同,差一不二

3- 训练数据:主要这玩意不一样

我们看训练数据 

一般来讲sft都sft chat模型

chat模型的template一般长这样的json

[

    {

        "role": "system",

        "content": "You are a helpful assistant."

    },

    {

        "role": "user",

        "content": "你为什么生气?"

    },

    {

        "role": "assistant",

        "content": "因为无能。"

    }

]

但是到了模型里要被进行llm能理解的special token,就要求你的sft训练数据这样

<|begin_of_text|>

<|start_header_id|>system<|end_header_id|>

You are a helpful assistant.<|eot_id|>

<|start_header_id|>user<|end_header_id|>

你为什么生气?<|eot_id|>

<|start_header_id|>assistant<|end_header_id|>

因为无能。<|eot_id|>

上面这些<>里的都会被tokenzier定义成特定的token id,以表明对话开始结束之类的说明

然后说Loss函数

Pretrain大家都知道是对next token求loss

SFT是对问题的答案求loss

end_str = "<|start_header_id|>assistant<|end_header_id|>"inputs = tokenizer(batch, max_length=max_length, padding=True, truncation=True)input_ids = inputs["input_ids"]input_len = len(input_ids[0])end_ids = tokenizer(end_str)["input_ids"]end_id_len = len(end_ids)loss_mask = []
for input_id in input_ids:    for i in range(len(input_id) - end_id_len, -1
<think>嗯,用户想知道如何检查电脑配置是否适合训练深度学习模型。首先,我需要回忆一下深度学习训练对硬件的要求。通常,GPU是关键,因为深度学习涉及大量的矩阵运算,而GPU的并行处理能力比CPU强很多。比如NVIDIA的CUDA核心数量、显存大小这些参数很重要。然后,用户可能需要知道如何查看自己电脑的GPU型号,显存等信息。 接下来是CPU,虽然不如GPU重要,但数据处理和模型的一些操作还是需要CPU。内存方面,至少16GB以上比较好,尤其是处理大数据集时。存储方面,SSD比HDD快,能加快数据读取速度。操作系统也需要支持,比如某些框架可能只支持Linux或Windows的特定版本。 然后要考虑软件部分,比如安装的深度学习框架是否支持现有的GPU,是否需要安装CUDA和cuDNN等驱动和库。比如TensorFlow或PyTorch都有特定的版本要求,用户需要确认自己的GPU是否兼容。 用户可能还需要知道如何通过命令行或系统设置查看硬件信息。例如,在Windows可以通过任务管理器,在Linux可以用nvidia-smi命令查看GPU状态。另外,基准测试工具比如TensorFlow的基准测试脚本或者第三方工具可以帮助评估性能。 可能还需要提到云服务的选项,如果本地硬件不够,可以考虑使用云GPU实例,比如AWS、Google Cloud或者Colab。这样用户即使电脑配置不足,也能通过云服务进行训练。 最后,用户的问题中提到了引用[2],里面提到大多数框架自带GPU支持,所以需要指导用户如何检查框架是否识别到GPU,并正确配置了CUDA环境。例如,在Python中运行一些代码来检测GPU是否可用。 还要注意用户的实际操作步骤,给出具体的检查方法,比如命令行指令、代码示例等,确保他们能一步步操作。同时,提醒用户注意散热和电源,因为长时间训练需要稳定的散热系统,否则可能导致硬件过热降频。 可能还需要区分训练和推理的不同需求,训练通常需要更强的计算能力,而推理可以接受较低的配置。如果用户只是微调模型,可能不需要顶级的GPU,但大规模训练就需要更高端的硬件了。 总结一下,回答应该涵盖硬件检查(GPU、CPU、内存、存储)、软件环境(CUDA、框架支持)、性能测试方法以及云服务备选方案。同时,结合用户提供的引用内容,强调GPU的重要性以及框架的集成支持,让用户明白如何利用现有资源或升级配置。</think>要检查电脑配置是否适合深度学习模型训练,需重点关注硬件性能指标与软件环境支持。以下是具体检查步骤和分析方法: ### 一、核心硬件检查 1. **GPU配置** - 执行`nvidia-smi`命令查看显卡型号、显存容量(如RTX 3090/24GB) - 检查CUDA核心数量(可通过TechPowerUp数据库查询) - 最低推荐:NVIDIA GTX 1060/6GB显存 - 理想配置:RTX 4090/24GB或A100/40GB[^2] 2. **CPU与内存** - Windows:任务管理器 > 性能标签 - Linux:`lscpu`查看CPU核心数,`free -h`查看内存 - 推荐配置:8核以上CPU + 32GB DDR4内存 3. **存储系统** - 使用CrystalDiskMark测试SSD读写速度 - 建议配置:NVMe SSD(3500MB/s以上)+ HDD数据仓库 ### 二、软件环境验证 1. **CUDA兼容性检查** ```python import torch print(torch.cuda.is_available()) # 输出True表示GPU可用 print(torch.cuda.get_device_name(0)) # 显示显卡型号 ``` 2. **框架支持测试** TensorFlow验证示例: ```python import tensorflow as tf print(tf.config.list_physical_devices(&#39;GPU&#39;)) ``` ### 三、性能基准测试 使用DLProf或框架内置工具进行基准测试: ```bash python -m tensorflow.python.keras.benchmarks \ --benchmark=ResNet50 --num_gpus=1 ``` 重点关注: - 显存利用率(避免OOM错误) - 计算吞吐量(images/sec) - 温度监控(建议<85℃) ### 四、备选方案 若本地硬件不足: 1. 使用Colab免费GPU(最高提供T4/16GB) 2. 租用AWS p3.2xlarge(配备V100显卡) 3. 采用混合训练方案:本地预处理+云端训练[^1]
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值