
自然语言处理
文章平均质量分 62
dream6104
仰望星空,脚踏实地。
展开
-
BERT模型自定义词汇以及token相关
1.加载bert模型及分词from transformers import AutoModelForMaskedLM, AutoTokenizermodel = "bert-base-cased"tokenizer = AutoTokenizer.from_pretrained(model, use_fast=True)model = AutoModelForMaskedLM.from_pretrained(model)2.分词演示这里是对COVID hospitalization分词p原创 2021-08-17 22:38:15 · 2806 阅读 · 1 评论 -
文本生成解码策略笔记-常见解码策略
文本解码时,每一个时间步不断的解码得到当前的文字,当前文字到底生成候选词典(vocab)中的哪一个,需要一定的策略,显然遍历的复杂度较高;例如,如果时间步是T=500,候选vocab容量为5000,则随机遍历复杂度可达到${1000}^{500}$,显然,这里有很多的改进空间,本文列举了一些常见的优化方法。原创 2021-07-18 16:28:03 · 2154 阅读 · 1 评论