huggingface tokenizers

抱抱脸团队发布Tokenizers工具,显著提升NLP任务中词语切分效率,20秒编码1GB文本,支持多种模型如BPE、WordPiece等,适用于Rust、Python、Node.js。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

专注 NLP 的初创团队抱抱脸(hugging face)发布帮助自然语言处理过程中,更快的词语切分(tokenization)工具:Tokenizers —— 只要 20 秒就能编码 1GB 文本。

功能多样:适用于 BPE / byte-level-BPE / WordPiece / SentencePiece 各种 NLP 处理模型

可以完成所有的预处理:截断(Truncate)、填补(Pad)、添加模型需要的特殊标记。
速度超级快:只需要 20 秒就可以在 CPU 上标记 1GB 的文本。
目前适用三种编程语言:Rust / Python / Node.js

github

  • 主要包含的 Tokenizer 有:

ByteLevelBPETokenizer,字节级别的 BPE (Byte Pair Encoding) 训练和 tokenize,facebook 那几个预训练模型比如 Roberta 就用的这个,应对多语言比较方便;

CharBPETokenizer,比字节高一个级别,字级别的 BPE,其实就是最经典 Sennrich 教授用的那个,subword-nmt;

SentencePieceTokenizer,现在越来越搞不清这些命名之间的关系了,不过看代码应该是在 BPE 过程之前加了一个 pretokenization 过程,先对文本进行预处理再 BPE;

BertWordPieceTokenizer,应该就是基于 unigram language model 那篇论文来做的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值