增加special token的时候一直报错
additional_special_tokens也不行,add_tokens也不行,len和vocab_size也不行
后来发现是旧版本pytorch_pretrained_bert的问题:
原来:
from pytorch_pretrained_bert import BertAdam
tokenizer = BertTokenizer(vocab_file=args.tokenizer_path)
改为:
from transformersimport BertAdam
tokenizer = BertTokenizer.from_pretrained(pretrain_path, additional_special_tokens=['##char##'])