【转载】Pytorch_Tokenizers的使用
文章目录前言加载并使用Tokenizer一、载入预训练模型的词典二、使用tokenizer三、一些其它的tokenizer方法原文地址前言 在NLP项目中,我们常常会需要对文本内容进行编码,所以会采tokenizer这个工具,他可以根据词典,把我们输入的文字转化为编码信息,例如我们本文信息是“我爱你”将转化为[2,10,3],其中”我“在字典里对应数字2,”爱“在字典里对应数字10,经过转化之后的文本,就可以作为模型的输入了。因此我们可以知道如果字典不同,那意味着同一句话编码出来的数字也就是不同的,
转载
2022-05-26 22:22:52 ·
2490 阅读 ·
0 评论