ModernBERT 开发者指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00972/article/details/147085720

ModernBERT 开发者指南

bert24 项目地址: https://gitcode.com/gh_mirrors/be/bert24

1. 项目介绍

ModernBERT 是一个开源项目，旨在通过架构改进和规模扩展将 BERT 模型现代化。该项目引入了 FlexBERT，这是一种模块化的编码器构建块方法，并大量使用 .yaml 配置文件来构建模型。ModernBERT 的代码库基于 MosaicBERT，并对其进行了扩展，以支持 Flash Attention 2。该项目由 Answer.AI、LightOn 和其他合作伙伴共同开发。

2. 项目快速启动

环境搭建

在 GPU 配置的机器上，使用以下命令创建和激活环境：

conda env create -f environment.yaml
conda config --set channel_priority flexible
conda activate bert24

如果使用 H100s，需要克隆并构建 Flash Attention 3：

git clone https://github.com/Dao-AILab/flash-attention.git
cd flash-attention/hopper
python setup.py install

安装 Flash Attention 2：

pip install "flash_attn==2.6.3" --no-build-isolation

模型训练

训练过程依赖于 composer 框架，并通过 YAML 文件进行配置。以下是一个启动训练的例子：

composer main.py yamls/main/modernbert-base.yaml

数据准备

项目提供了两种数据集类：

StreamingTextDataset：继承自 StreamingDataset，支持 MDS、CSV/TSV 或 JSONL 格式，适用于本地数据。
NoStreamingDataset：需要解压缩的 MDS 格式数据，可以通过 src/data/mds_conversion.py 进行解压缩。

根据数据访问方式选择合适的类，并在数据加载器中设置 streaming 参数。