
bert预训练
文章平均质量分 70
每天八杯水D
修德 求知 炼体 磨意
展开
-
BERT模型的输出格式探究以及提取出BERT 模型的CLS表示,last_hidden_state[:, 0, :]用于提取每个句子的CLS向量表示
最近使用自己的数据集对bert-base-uncased进行了二次预训练,只使用了MLM任务,发现在加载训练好的模型进行输出CLS表示用于下游任务时,同一个句子的输出CLS表示都不一样,并且控制台输出以下警告信息。说是没有这些权重。原创 2024-12-04 13:32:59 · 1858 阅读 · 0 评论 -
Hugging Face 的 Transformers 库使用trainer.save_model()和model.save_pretrained()这两种模型保存方法有什么区别?
trainer.save_model() 和 model.save_pretrained()——都可以用来保存模型并且使用方法和代码是一样的。原创 2024-12-04 10:21:04 · 2969 阅读 · 0 评论 -
bert-base-uncased模型的tokenizer.json和vocab.txt的区别和联系
vocab.txt 是传统分词器(如 BertTokenizer)所必需的文件,加载时会使用该文件。tokenizer.json 是 Fast Tokenizer(如 BertTokenizerFast)的核心文件,包含更多的配置和细节,但不是必需的(只有 Fast Tokenizer 才会使用)。如果你训练的是传统的 BertTokenizer,那么只有 vocab.txt 文件即可,没有 tokenizer.json 文件也没有问题。原创 2024-12-04 10:07:32 · 1475 阅读 · 0 评论 -
matplotlib:module ‘backend_interagg‘ has no attribute ‘FigureCanvas‘. Did you mean: ‘FigureCanvasAgg
【代码】matplotlib:module 'backend_interagg' has no attribute 'FigureCanvas'. Did you mean: 'FigureCanvasAgg。原创 2024-12-04 09:00:00 · 173 阅读 · 0 评论 -
pypdf2+nltk数据预处理:基于句子切分文本数据,而不是基于固定单词数量分割。nltk报错:<urlopen error [Errno 111] Connection [nltk_data]
任务:当我们需要数据预处理时,会把一篇文章比如pdf格式的,以每200 words为单位进行分割为样本数据,每个样本数据都是200个words。缺点:很多样本数据上下文信息不完整。原创 2024-12-02 21:38:58 · 676 阅读 · 0 评论 -
使用PyPDF2工具加载pdf文件数据
预训练bert模型时需要加载到pdf文件数据进行预处理,这里使用了pypdf2这个工具包,简单记录一下代码。原创 2024-12-02 14:57:38 · 519 阅读 · 0 评论