开源项目Marin的最佳实践教程

裴进众Serene

于 2025-05-23 09:01:40 发布

阅读量266

点赞数 5

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_01161/article/details/148155331

开源项目Marin的最佳实践教程

marin 项目地址: https://gitcode.com/gh_mirrors/ma/marin

1. 项目介绍

Marin是一个开源框架，旨在研究和开发基础模型。其核心特点之一是可重现性：从原始数据到最终模型的每一步都被记录下来，不仅包括成功的结果，还包括失败的实验，这使得整个研究过程完全透明。Marin主要用于训练类似Llama、DeepSeek、Qwen等语言模型，涵盖数据整理、转换、过滤、分词、训练和评估等环节。

2. 项目快速启动

以下是使用Marin进行项目快速启动的步骤：

首先，您需要安装Marin。安装过程通常包括以下命令：

pip install marin

接下来，我们将通过一个简单的示例来训练一个微型语言模型。

步骤1：选择数据集

在这个示例中，我们使用名为"TinyStories"的数据集。

tinystories_hf_id = "roneneldan/TinyStories"

步骤2：数据集分词

使用默认的分词方法对数据集进行分词。

from experiments.defaults import default_tokenize
from experiments.llama import llama3_tokenizer

tinystories_tokenized = default_tokenize(
    name=tinystories_hf_id,
    dataset=tinystories_hf_id,
    tokenizer=llama3_tokenizer,
)

步骤3：定义训练配置

创建一个简单的训练配置。

from experiments.simple_train_config import SimpleTrainConfig
from marin.resources import CpuOnlyConfig

nano_train_config = SimpleTrainConfig(
    resources=CpuOnlyConfig(num_cpus=1),
    train_batch_size=4,
    num_train_steps=100,
    learning_rate=6e-4,
    weight_decay=0.1,
    max_eval_batches=4,
    use_default_validation=False
)

步骤4：训练模型

使用上述配置开始训练模型。

from experiments.defaults import default_train
from experiments.llama import llama_nano

nano_tinystories_model = default_train(
    name="marin-nano-tinystories",
    tokenized=tinystories_tokenized,
    model_config=llama_nano,
    train_config=nano_train_config,
    tags=["llama", "nano", "tinystories", "tutorial"],
    eval_harness_tasks=[],
)

运行上述脚本即可开始训练。