BPE(Byte-Pair Encoding )代码实现

沉住气CD

已于 2024-01-11 14:46:36 修改

阅读量825

点赞数 11

CC 4.0 BY-SA版权

分类专栏： NLP 文章标签：机器学习人工智能数据挖掘算法 python nlp

于 2024-01-11 12:26:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/PyDarren/article/details/135524864

BPE 是使用最广泛的sub-word tokenization算法之一。尽管贪婪，但它具有良好的性能,并被作为机器翻译等主流NLP任务的首选tokenize方法之一。

BPE算法原理传送门

1. Byte-Pair Encoding Tokenizer Training


import pandas as pd

# Import gc, a library for controlling the garbage collector
import gc

# Import various classes and functions from the tokenizers library, which is used for creating and using custom tokenizers 
from tokenizers import (
    decoders,
    models,
    normalizers,
    pre_tokenizers,
    processors,
    trainers,
    Tokenizer,
)

# Import PreTrainedTokenizerFast, a class for using fast tokenizers from the transformers library
from transformers import PreTrainedTokenizerFast

# Import TfidfVectorizer, a class for transforming text into TF-IDF features
from sklearn.feature_extraction.text import TfidfVectorizer

# Import tqdm, a library for displaying progress bars 
from tqdm.auto import tqdm

# Import Dataset, a class for working with datasets in a standardized way 
from datasets import Dataset

# Set the LOWERCASE flag to False
LOWERCASE = False 

# Set the VOCAB_SIZE to 10000000.
# This means that the maximum number of words in the vocabulary will be 10 million.
VOCAB_SIZE = 10000000

test = pd.read_csv(

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄7年

110
原创

700
点赞

1320
收藏

547
粉丝

关注

私信

分类专栏

工程开发 2篇
数据可视化 5篇
PyTorch 5篇
机器学习常用算法 11篇
NLP 3篇
统计学 12篇
python学习 17篇
R学习 11篇
数据库 7篇
爬虫 3篇
数据结构 19篇
深度学习 5篇

展开全部收起

上一篇：: LightGBM原理和调参

下一篇：: 用TF-IDF处理文本数据

最新评论

统计学之基础知识（数据分析准备）
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接。
利用R语言进行基本数据管理
沉住气CD: 强推ggplot2
R语言高级数据管理
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)提升标题与正文的相关性；(3)使用更多的站内链接。
利用R语言进行基本数据管理
优快云-Ada助手: R语言中的数据可视化库有哪些？
利用R语言的dplyr包进行数据转换
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)增加除了各种控件外，文章正文的字数；(3)提升标题与正文的相关性。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。