Cramming 项目使用教程

最新推荐文章于 2024-09-15 08:28:46 发布

温宝沫Morgan

最新推荐文章于 2024-09-15 08:28:46 发布

阅读量337

点赞数 4

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00027/article/details/138178850

Cramming是一个由JonasGeiping创建的开源项目，利用空间重复算法帮助用户系统化、高效地记忆和复习知识。它提供个性化复习计划，简洁界面，跨平台支持，且数据同步，无广告干扰，社区驱动的持续改进。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Cramming 项目使用教程

cramming Cramming the training of a (BERT-type) language model into limited compute. 项目地址: https://gitcode.com/gh_mirrors/cr/cramming

1. 项目介绍

Cramming 是一个开源项目，旨在将 BERT 类型的语言模型训练压缩到有限的计算资源中，特别是单个 GPU 和一天的时间内。该项目由 Jonas Geiping 开发，并在 GitHub 上托管。Cramming 项目的主要目标是探索在极端计算资源限制下，如何有效地训练语言模型，并提供了一个可复现的研究框架。

项目的主要特点包括：

有限计算资源下的语言模型训练：在单个 GPU 上进行 24 小时的训练。
完全从头开始训练：不使用任何预训练模型。
下游任务性能评估：使用 GLUE 基准进行评估。

2. 项目快速启动

2.1 环境准备

首先，确保你已经安装了以下依赖：

PyTorch (至少版本 2.1)
Huggingface 的 transformers, tokenizers, datasets, evaluate
hydra-core, psutil, pynvml, safetensors, einops

你可以通过以下命令安装这些依赖：

pip install torch transformers tokenizers datasets evaluate hydra-core psutil pynvml safetensors einops

2.2 克隆项目

使用以下命令克隆 Cramming 项目到本地：

git clone https://github.com/JonasGeiping/cramming.git
cd cramming

2.3 运行示例

在项目目录下，你可以通过以下命令运行一个简单的训练示例：

python pretrain.py name=test arch=hf-bert-base train=bert-base data=sanity-check-2 dryrun=True impl.microbatch_size=2

这个命令会预处理一个小型的 sanity-check 数据集，并运行一个训练步骤。

3. 应用案例和最佳实践

3.1 应用案例

Cramming 项目可以应用于以下场景：

学术研究：研究人员可以使用该项目来探索在有限计算资源下的语言模型训练方法。
教育：学生和教育工作者可以使用该项目来学习和实践语言模型训练的基本概念。
小型企业：资源有限的小型企业可以使用该项目来训练自己的语言模型，而无需昂贵的计算资源。

3.2 最佳实践

数据预处理：在开始训练之前，确保数据预处理步骤已经完成。可以使用 python pretrain.py data=pile-readymade dryrun=True 来预处理数据。
模型选择：根据你的需求选择合适的模型架构和训练配置。例如，arch=crammed-bert 和 train=bert-o4 是推荐的配置。
资源管理：在训练过程中，注意监控 GPU 的使用情况，避免资源耗尽。