模型:
https://huggingface.co/google-bert/bert-base-chinese
BERT-base-chinese模型:
问题:
line1 = '在大众传媒兴起之前,一个人出名的方式通常是缓慢而“自然”的,能够在历史长河中留下印记的往往都是英雄豪杰或风流才俊。在大众传媒出现之后,人类开始利用媒体快速制造声名,围绕名人的生产已经形成了一个庞大的产业链。'
token1 = config.tokenizer.tokenize(line1)
token1: ['在', '大', '众', '传', '媒', '兴', '起', '之', '前', ',', '一', '个', '人', '出', '名', '的', '方', '式', '通', '常', '是', '缓', '慢', '而', '[UNK]', '自', '然', '[UNK]', '的', ',', '能', '够', '在', '历', '史', '长', '河', '中', '留', '下', '印', '记', '的', '往', '往', '都', '是', '英', '雄', '豪', '杰', '或', '风', '流', '才', '俊', '。', '在', '大', '众', '传', '媒', '出', '现', '之', '后', ',', '人', '类', '开', '始', '利', '用', '媒', '体', '快', '速', '制', '造', '声', '名', ',', '围', '绕', '名', '人', '的', '生', '产', '已', '经', '形', '成', '了', '一', '个', '庞', '大', '的', '产', '业', '链', '。']