bert-base-chinese添加新字符到词表中,出现[UNK]

模型:

https://huggingface.co/google-bert/bert-base-chinese

BERT-base-chinese模型:

问题:

line1 = '在大众传媒兴起之前,一个人出名的方式通常是缓慢而自然的,能够在历史长河中留下印记的往往都是英雄豪杰或风流才俊。在大众传媒出现之后,人类开始利用媒体快速制造声名,围绕名人的生产已经形成了一个庞大的产业链。'

token1 = config.tokenizer.tokenize(line1)

token1: ['在', '大', '众', '传', '媒', '兴', '起', '之', '前', ',', '一', '个', '人', '出', '名', '的', '方', '式', '通', '常', '是', '缓', '慢', '而', '[UNK]', '自', '然', '[UNK]', '的', ',', '能', '够', '在', '历', '史', '长', '河', '中', '留', '下', '印', '记', '的', '往', '往', '都', '是', '英', '雄', '豪', '杰', '或', '风', '流', '才', '俊', '。', '在', '大', '众', '传', '媒', '出', '现', '之', '后', ',', '人', '类', '开', '始', '利', '用', '媒', '体', '快', '速', '制', '造', '声', '名', ',', '围', '绕', '名', '人', '的', '生', '产', '已', '经', '形', '成', '了', '一', '个', '庞', '大', '的', '产', '业', '链', '。']

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值