MegatronLM源码阅读-数据预处理

最新推荐文章于 2024-10-21 10:18:03 发布

HaoRenkk123

最新推荐文章于 2024-10-21 10:18:03 发布

阅读量1.9k

点赞数 20

分类专栏： LLM 文章标签：深度学习 MegatronLM 大语言模型预训练源码阅读

本文链接：https://blog.youkuaiyun.com/jiang_ming_/article/details/135111980

版权

本文详细解析了MegatronLM模型的数据预处理步骤，包括使用GPT2BPETokenizer进行分词编码，将文本转换为模型可读的索引，并介绍了bin和idx文件的生成过程，涉及到了词汇表、字节对编码、二进制存储等关键环节。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据处理入口：

python tools/preprocess_data.py \
       --input content.jsonl \
       --output-prefix wudaocorpus_01 \
       --vocab ../starcoder/vocab.json \
       --dataset-impl mmap \
       --tokenizer-type GPT2BPETokenizer \
       --merge-file ../starcoder/merges.txt \
       --json-keys content \
       --workers 10 \
       --chunk-size 500 \
       --append-eod

--input：要处理的jsonl数据

--output-prefix：处理完成后生成的bin和idx文件的名称前缀

--vocab-file：分词表文件,列出了模型已知的所有单词和子词，一般也是“字典文件”，可以将字符或者字符串转为模型可以读取的索引号

--tokenizer-type：tokenzier类型，如果选择是GPT2BPETokenizer的话，则一定要有：--vacal-file和--merge-file两个参数，这里根据./megatron/tokenizer/tokenizer.py#40和#52行可知；GPTBPETokenizer所用算法为BPE(byte-pair encoding)字节对编码

--merge-file：合并文件，指示如何合并字符和字词以形成更长字词的文件，每行都是一个合并操作，合并操作的大概步骤为：

举例处理英文字符串“lower”：
初始状态，将字符串分解为单个字符：'l','o','w','e','r'
假设merge-file中的内容为：
merges = [
    ('l', 'o'),
    ('o', 'w'),
    ('e', 'r')
]
使用第一个合并规则（l + o -> lo）：'lo','w','e','r'
第二个合并规则（o + w）在此上下文中不适用，因此没有改变
使用第三个合并规则（e + r -> er）：'lo','w','er'
最终的BPE分词结果为：'lo','w','er'

如果是处理中文字符串时,如果vocab.txt中不支持中文,那么可以将中文字符串先转为utf-8编码格式的字符串,然后按照上边的步骤进行合并

--json-key：需要处理的jsonl中对应key-value

--workers：进程数

--chunk-size：每进程一次处理的文本数

--append-eod：是否在文本末尾添加标记

进入preprocess_data.py

假设我们提供的jsonl为：

{"src": "www.nvidia.com", "content": "The quick brown fox", "type": "Eng", "id": "0", "title": "First Part"}

{"src": "The Internet", "content": "jumps over the lazy dog", "type": "Eng", "id": "42", "title": "Second Part"}

{"src": "The Internet", "content": "apple is 苹果。", "type": "Eng", "id": "42", "title": "Second Part"}

class Encoder(object):
    def __init__(self, args):
        self.args = args

    def initializer(self):
        # Use Encoder class as a container for global data
        Encoder.tokenizer = build_tokenizer(self.args)#当前入口为这个：GPT2BPETokenizer
        if self.args.split_sentences:
            if not nltk_available:
                print("NLTK is not available to split sentences.")
                exit()
            splitter = nltk.load("tokenizers/punkt/english.pickle")
            if self.args.keep_newlines:
                # this prevents punkt from eating newlines after sentences
                Encoder.splitter = nltk.tokenize.punkt.PunktSentenceTokenizer(
                    train_text = splitter._params,
                    lang_vars = CustomLanguageVars())
            else:
                Encoder.splitter = spli