MegatronLM源码阅读-数据预处理

本文详细解析了MegatronLM模型的数据预处理步骤,包括使用GPT2BPETokenizer进行分词编码,将文本转换为模型可读的索引,并介绍了bin和idx文件的生成过程,涉及到了词汇表、字节对编码、二进制存储等关键环节。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据处理入口:

python tools/preprocess_data.py \
       --input content.jsonl \
       --output-prefix wudaocorpus_01 \
       --vocab ../starcoder/vocab.json \
       --dataset-impl mmap \
       --tokenizer-type GPT2BPETokenizer \
       --merge-file ../starcoder/merges.txt \
       --json-keys content \
       --workers 10 \
       --chunk-size 500 \
       --append-eod

--input:要处理的jsonl数据

--output-prefix:处理完成后生成的bin和idx文件的名称前缀

--vocab-file:分词表文件,列出了模型已知的所有单词和子词,一般也是“字典文件”,可以将字符或者字符串转为模型可以读取的索引号

--tokenizer-type:tokenzier类型,如果选择是GPT2BPETokenizer的话,则一定要有:--vacal-file和--merge-file两个参数,这里根据./megatron/tokenizer/tokenizer.py#40和#52行可知;GPTBPETokenizer所用算法为BPE(byte-pair encoding)字节对编码

--merge-file:合并文件,指示如何合并字符和字词以形成更长字词的文件,每行都是一个合并操作,合并操作的大概步骤为:

举例处理英文字符串“lower”:
初始状态,将字符串分解为单个字符:'l','o','w','e','r'
假设merge-file中的内容为:
merges = [
    ('l', 'o'),
    ('o', 'w'),
    ('e', 'r')
]
使用第一个合并规则(l + o -> lo):'lo','w','e','r'
第二个合并规则(o + w)在此上下文中不适用,因此没有改变
使用第三个合并规则(e + r -> er):'lo','w','er'
最终的BPE分词结果为:'lo','w','er'

如果是处理中文字符串时,如果vocab.txt中不支持中文,那么可以将中文字符串先转为utf-8编码格式的字符串,然后按照上边的步骤进行合并

--json-key:需要处理的jsonl中对应key-value

--workers:进程数

--chunk-size:每进程一次处理的文本数

--append-eod:是否在文本末尾添加 标记

进入preprocess_data.py

假设我们提供的jsonl为:

{"src": "www.nvidia.com", "content": "The quick brown fox", "type": "Eng", "id": "0", "title": "First Part"}

{"src": "The Internet", "content": "jumps over the lazy dog", "type": "Eng", "id": "42", "title": "Second Part"}

{"src": "The Internet", "content": "apple is 苹果。", "type": "Eng", "id": "42", "title": "Second Part"}

class Encoder(object):
    def __init__(self, args):
        self.args = args

    def initializer(self):
        # Use Encoder class as a container for global data
        Encoder.tokenizer = build_tokenizer(self.args)#当前入口为这个:GPT2BPETokenizer
        if self.args.split_sentences:
            if not nltk_available:
                print("NLTK is not available to split sentences.")
                exit()
            splitter = nltk.load("tokenizers/punkt/english.pickle")
            if self.args.keep_newlines:
                # this prevents punkt from eating newlines after sentences
                Encoder.splitter = nltk.tokenize.punkt.PunktSentenceTokenizer(
                    train_text = splitter._params,
                    lang_vars = CustomLanguageVars())
            else:
                Encoder.splitter = spli
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

HaoRenkk123

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值