AI学习记录 - 解读llama3

置顶老麦克马猴

已于 2024-09-07 09:23:12 修改

阅读量820

点赞数 6

文章标签：人工智能学习

于 2024-09-03 08:22:38 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_43954090/article/details/141838915

版权

持续更新中

这是github大佬的llama3的代码，我继续加上属于我自己的理解
https://github.com/naklecha/llama3-from-scratch

如何token化

special_tokens ：token 就是你对自然语言的字符的拆分颗粒度以及拆分方式，在我同类文章当中有所介绍，包括bep算法概略介绍也有。下面代码加载llama3的token，然后自己添加上属于自己的token也就是special_tokens ，一般来说llama3训练主要以英文为主要，但是如果自己想要微调llama3变成中文法语德语的话，那肯定需要加上属于自己语言的token，虽然你不加也可以，原来的token词汇表肯定可以承接世界上所有的计算机语言，因为不管什么语言最终会转化为utf-8编码，但是单独的token训练出来效果会更好，不然你直接丢出一个中文训练集，对于llama来说，假设一个字 “好” 被拆分成3个utf-8编码，3个utf-8编码既承担了原有的英文语义，又要承担中文语义，fineturning的效果大概率不好。添加词汇表的时候，一般只能在最后面添加，因为词汇表其它位置它已经训练过了。

pat_str：就是对一个长文本是怎么拆分的，给出一段文本，“are you ok?” => are,you,ok,?，这就是依据正则表达式进行拆分，中文就是每个字都要拆分，拆分成小字符之后才会对每个单词进行token化。

下面是加载了llama3的词汇表，然后合并自己的special_token，成为了新的token词汇表，然后进行训练的。

from pathlib import Path
import tiktoken
from tiktoken.load import load_tiktoken_bpe
import torch
import json
import matplotlib.pyplot as plt

tokenizer_path = "Meta-Llama-3-8B/tokenizer.model"
special_tokens = [
            "<|begin_of_text|>",
            "<|end_of_text|>",
            "<|reserved_special_token_0|>",
            "<|reserved_special_token_1|>",
            "<|reserved_special_token_2|>",
            "<|reserved_special_token_3|>",
            "<|start_header_id|>",
            "<|end_header_id|>",
            "<|reserved_special_token_4|>",
            "<|eot_id|>",  # end of turn
        ] + [f"<|reserved_special_token_{i}|>" for i in range(5, 256 - 5)]
mergeable_ranks = load_tiktoken_bpe(tokenizer_path)
tokenizer = tiktoken.Encoding(
    name=Path(tokenizer_path).name,
    pat_str=r"(?i:'s|'t|'re|'ve|'m|'ll|'d)|[^\r\n\p{L}\p{N}]?\p{L}+|\p{N}{1,3}| ?[^\s\p{L}\p{N}]+[\r\n]*|\s*[\r\n]+|\s+(?!\S)|\s+",
    mergeable_ranks=mergeable_ranks,
    special_tokens={token: len(mergeable_ranks) + i for i, token in enumerate(special_tokens)},
)

tokenizer.decode(tokenizer.encode("hello world!"))

如何embedding

大佬写的代码是

embedding_layer = torch.nn.Embedding(vocab_size, dim)
embedding_layer.weight.data.copy_(model["tok_embeddings.weight"])
token_embeddings_unnormalized = embedding_layer(tokens).to(torch.bfloat16)
token_embeddings_unnormalized.shape