transformers有关tokenzier的几个函数
1、想要知道每个piece属于哪个word:
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased", use_fast=True)//use fast tokenizer
piece2word = tokenizer(input_text).words()//首尾为special token
2、想要知道每个piece在原输入中所属的位置:
tokenizer = AutoTokenizer.from_pretrained("bert-ba
原创
2021-10-16 17:11:34 ·
1785 阅读 ·
1 评论