BytePiece：更纯粹、更高压缩率的分词器-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01000/article/details/147020914

BytePiece：更纯粹、更高压缩率的分词器

bytepiece 更纯粹、更高压缩率的Tokenizer 项目地址: https://gitcode.com/gh_mirrors/by/bytepiece

1. 项目介绍

BytePiece 是一个基于 Byte 的 Unigram 分词器，使用纯 Python 实现，旨在提供更加易读、易拓展的分词解决方案。BytePiece 通过创新的训练算法，实现了更高的压缩率，并且支持多进程加速训练。它的设计理念是直接操作 UTF-8 编码的文本字节，减少了预处理步骤，使得分词器更加纯粹且语言无关。

2. 项目快速启动

安装

BytePiece 只能在 Python 3 环境下运行，并依赖于 pyahocorasick 和 Cython。首先，安装 Byte-based 版本的 pyahocorasick：

pip uninstall pyahocorasick
AHOCORASICK_BYTES=1 pip install git+https://github.com/WojciechMula/pyahocorasick.git

然后，安装 Cython：

pip install Cython

最后，安装 BytePiece：

pip install bytepiece==0.6.3

训练

创建一个训练语料的迭代器，例如：

import json

class corpus:
    def __iter__(self):
        with open('data_sample.json') as f:
            for l in f:
                yield json.loads(l)['text']

使用 Trainer 类开始训练：

from bytepiece import Trainer

trainer = Trainer(order=6, max_vocab_size=100000, min_count=32)
trainer.train(corpus(), workers=64, batch_size=1000)
trainer.save('bytepiece.model')

分词

使用训练好的模型进行分词：

from bytepiece import Tokenizer

tokenizer = Tokenizer('bytepiece.model')
text = '今天天气不错'
tokens = tokenizer.tokenize(text)
print(b' '.join(tokens).decode(errors='ignore'))