transformers基础组件tokenizer

HuggingFaceTransformers中的数据预处理与tokenizer操作详解

原创已于 2024-06-11 21:06:05 修改 · 338 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#学习

于 2024-01-19 16:02:34 首次发布

本文详细介绍了在HuggingFaceTransformers库中进行文本数据预处理的过程，包括分词、构建词典、数据转换、填充与截断，以及如何加载和保存tokenizer。展示了如何使用tokenizer进行编码、解码和处理batch数据，以及特殊tokenizer的加载方法。

数据预处理

1.分词

使用分词器对文本数据进行分词

2.构建词典

根据数据集分词的结果，构建词典映射

3.数据转换

根据构建好的词典，将分词处理后的数据做映射，将文本序列转换为数字序列

4.数据填充与截断

在以batch输入到模型的方式中，需要对过短的数据进行填充，对过长的数据进行截断，保证数据长度符合模型能接受的范围，同时batch内的数据维度一致

加载与保存

#从huggingFace加载，输入模型名称
tokenizer=AutoTokenizer.from_pretrained("uer/roberta-base-finetuned-dianping-chinese")
#保存到本地
tokenizer.save_pretrained("./roberta_tokenizer")
#从本地加载tokenizer
tokenizer=AutoTokenizer.from_pretrained("./roberta_tokenizer")

句子分词

from transformers import AutoTokenizer
san="弱小的我还有大梦想"
tokens=tokenizer.tokenize(sen)
#查看词典
tokenizer.vocab

索引转换

ids=toknizer.convert_tokens_to_ids(tokens)
ids

tokens=tokenizer.convert_ids_to_tokens(ids)
tokens

str_sen=tokenizer.connvert_tokens_to_string(tokens)
str_sen

更便捷的实现方式

ids=tokenizer.encode(sen)
ids
ids=tokenizer.encode(sen,add_special_tokens=False)
ids

#将id序列转成字符串，有称为解码
str_sen=tokenizer.decode(ids)
str_sen

填充和截断

ids=tokenizer.encode(sen,padding="max_length",max_length=15)
ids

ids=tokenizer.encode(sen,max_length=5,truncation=True)
ids

快速调用方法

inputs=tokenizer.encode_plus(sen,padding="max_length",max_length=15)
inputs


inputs=tokenizer(sen,padding="max_length",max_length=15)
inputs

#处理batch数据
sens=["弱小的我也有大梦想"，
     "有梦想的了不起"]
res=tokenizer(sens)
res

特殊tokenizer的加载

from transformers import AutoTokenizer
tokenizer=AutoTokenizer.from_pretrained("THUDM/chatglm-6b",trust_remote_code=True)
tokenizer