Transformer warning: [encoder.embed_tokens.weight] is newly initialized

T5EncoderModel加载预训练权重时的警告解析

最新推荐文章于 2024-08-20 11:08:46 发布

原创最新推荐文章于 2024-08-20 11:08:46 发布 · 1.5k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #深度学习 #人工智能

深度学习专栏收录该内容

83 篇文章

订阅专栏

在使用Transformer加载T5Encoder预训练权重时可能会遇到关于encoder.embed_tokens.weight未初始化的警告，但文章指出这不影响模型性能，可以忽略。要消除警告，建议更新Transformer库至最新版本。

在使用transformer 加载预训练的T5 encoder参数的时候，经常会出现：

Some weights of T5EncoderModel were not initialized from the model checkpoint 
at t5-large and are newly initialized: ['encoder.embed_tokens.weight']

这个['encoder.embed_tokens.weight']参数，顾名思义，就是encoder的embedding weight。

很多人在看到这个warning的时候会担心，embedding随机初始化，会不会影响到模型性能。

经过笔者多方查证，这个['encoder.embed_tokens.weight']的初始化对于模型性能是没有任何影响的，可以忽视。

在这里插入图片描述
如果想要没有这个报错，就升级transformer到最新版本。

具体详见：Warning when loading T5 encoders

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Reza.

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

ModuleNotFoundError: No module named ‘transformers.modeling_bart‘解决方案

weixin_43178406的博客

09-05

5万+

本文主要介绍了ModuleNotFoundError: No module named 'transformers.modeling_bart’解决方案，希望能对学习BART的同学们有所帮助。需要特别说明的是本方法不需要降级transformers的版本，希望能对同学们有所帮助。文章目录 1. 问题描述 2. 解决方案

ModuleNotFoundError: No module named ‘transformers.modeling_bert‘解决方案

热门推荐

weixin_43178406的博客

09-13

3万+

本文主要介绍了ModuleNotFoundError: No module named 'transformers.modeling_bert’解决方案，希望能对学习BERT的同学们有所帮助。需要特别说明的是本方法不需要降级transformers的版本，希望能对使用Pytorch的同学们有所帮助。文章目录 1. 问题描述 2. 解决方案

1 条评论您还未登录，请先登录后发表或查看评论

加载预训练模型:OSError: Can‘t load config for XXX Make sure that:XXXis a correct model identifier listed on

凝眸伏笔的博客

01-26

2万+

1.背景从huggingface模型库中，加载一些预训练模型，做fine-tuning。 2.错误详情 demo.py代码结构： from transformers import AutoTokenizer, AutoModelForMaskedLM,BertTokenizer, BertModel, BertForMaskedLM, pipeline import torch tokenizer = BertTokenizer.from_pretrained("uer/chinese_rob

transformers库中使用DataParallel保存模型参数时遇到的问题记录

u011426236的博客

04-22

4129

pytorch中使用DataParallel保存模型参数时遇到的问题记录之前使用Transformers库中的Bert模型在自己的文本分类任务上使用Transformers库里的Trainer方式进行了Fine-tune。今天尝试加载保存好的checkpoint到程序中来直接进行evaluate。直接使用AutoModelForSequenceClassification从checkpoint目录加载加载的代码为： model = AutoModelForSequenceClassification.

2021-08-22

qq_43134594的博客

08-22

270

/home/panda/miniconda3/envs/py37/bin/python /home/panda/Desktop/PythonProject/spert-master-xu/spert.py train --config configs/example_train.conf Config: {‘label’: ‘conll04_train’, ‘model_type’: ‘spert’, ‘model_path’: ‘bert-base-cased/pytorch-model.bin’, ‘t

xinference.api.restful_api KeyError: ‘model.embed_tokens.weight‘

TZfool的博客

08-20

2062

使用xinference运行qwen2选择8B量化运行时报错：KeyError: [address=127.0.0.1:59995, pid=14340] 'model.embed_tokens.weight'原因是：xinference在使用指定量化时，只能运行bin文件。而qwen2运行时生成的是safetensors文件。解决方法：使用xinference运行qwen2在指定量化规模时，选择none运行即可。

KeyError: ‘unexpected key “module.encoder.embedding.weight” in state_dict’

junjian Li

12-08

1269

最近在跑模型的时候出现了KeyError: ‘unexpected key “module.encoder.embedding.weight” in state_dict’错误。记录一下： 1。这可能是因为你使用了nn.DataParallel来存储模型module，而你现在尝试不使用加载模型DataParallel直接加载模型，所以就出现了这个bug。解决方法： 1.你可以先将model加载到DataParallel：mdoel = torch.nn.DataParallel(model)，然后再加载预

解决TypeError: SwinTransformer: __init__() got an unexpected keyword argument ‘embed_dim‘

GZKPeng的博客

07-07

6546

Swin transformer复现遇到的问题及解决方法问题：TypeError: SwinTransformer: init() got an unexpected keyword argument ‘embed_dim’

Transformer详解encoder

lbr15660656263的博客

06-30

1714

最近刚好梳理了下transformer，今天就来讲讲它~Transformer是谷歌大脑2017年在论文attention is all you need中提出来的seq2seq模型，它的本质就是由编码器和解码器组成，今天的主角则是其中的编码器（在BERT预训练模型中也只用到了编码器部分）如下图所示，这个模块的输入为 𝑋 （每一行代表一个句子，batchsize有多大就有多少行），我们将从输入到隐藏层按照从1到4的顺序逐层来看一下各个维度的变化。

Unexpected key(s) in state_dict: "module.backbone.bn1.num_batches_tracked"

jacke121的专栏

09-07

1万+

pytorch预测的时候报异常了： {RuntimeError}Error(s) in loading state_dict for DataParallel: Unexpected key(s) in state_dict: "module.backbone.bn1.num_batches_tracked", "module.backbone.shuffles.ShuffleConvs_...

Transformer 中的 Encoder 机制

实力派，无需多言！

11-07

1003

因此将特征序列表示为 [[1, 1, 0, 0], [1, 1, 1, 1]]，其 shape=[2, 4]，见下面的第二个矩阵，如：src_seq = [[6, 4, 0, 0], [6, 4, 1, 7]] 中，第一个单词 6 用向量 [-0.9194, 0.3338, 0.7215, -1.2306, 0.9512, -0.1863] 来表示。# [tensor([4, 2, 1, 3]), tensor([6, 5, 1])] # 目标特征，第一个句子有4个单词，第二个句子有3个单词。

【深度学习】(3) Transformer 中的 Encoder 机制，附Pytorch完整代码

博观而约取，厚积而薄发

06-28

2993

大家好，今天和各位分享一下 Transformer 中的 Encoder 部分涉及到的知识点：Word Embedding、Position Embedding、self_attention_Mask本篇博文是对上一篇《Transformer代码复现》的解析，强烈建议大家先看一下：https://blog.csdn.net/dgvv4/article/details/125491693由于 Transformer 中涉及的知识点比较多，之后的几篇会介绍 Decoder 机制、损失计算、实战案例等。 Wor

集群操作指南

weixin_42726068的博客

11-09

239

【代码】公共集群。

Python: BERT Error - Some weights of the model checkpoint at were not used when initializing BertMod

Obolicaca的博客

03-07

1万+

在调用transformers预训练模型库时出现以下信息： Some weights of the model checkpoint at bert-base-multilingual-cased were not used when initializing BertForTokenClassification_: ['cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.weight', 'cls.

huggingface transformer 加载gpt2报错，显式部分参数加载失败

Aa545620073的博客

01-20

2429

Some weights of GPT2Model were not initialized from the model checkpoint at gpt2 and are newly initialized: [‘h.0.attn.masked_bias’, ‘h.1.attn.masked_bias’, ‘h.2.attn.masked_bias’, ‘h.3.attn.masked_bias’, ‘h.4.attn.masked_bias’, ‘h.5.attn.masked_bias’, ‘h

打造你自己的gpt-sovits的api

weixin_36240382的博客

07-18

2350

cd进入frpc_linux_amd64文件的位置（应该在.conda/envs/ChatGLM2/lib/python3.11/site-packages/gradio），输入以下命令给予权限：chmod +x frpc_linux_amd64_v0.2。请把有效模型放置在模型文件夹下，确保其中至少有pth、ckpt和wav三种文件。然后我机智的把trained/.ipynb_checkpoints/删掉了在python app.py 可以了~于是又到大佬的文件里面去找，发现应该是没有导入模型。

Transformers 4.37 中文文档（七十六）

龙哥盟

06-23

1356

MMS 模型是由 Vineel Pratap、Andros Tjandra、Bowen Shi、Paden Tomasello、Arun Babu、Sayani Kundu、Ali Elkahky、Zhaoheng Ni、Apoorv Vyas、Maryam Fazel-Zarandi、Alexei Baevski、Yossi Adi、Xiaohui Zhang、Wei-Ning Hsu、Alexis Conneau、Michael Auli 在将语音技术扩展到 1000 多种语言中提出的。

计算生物学习——Code_SMILES的向量表示_ChemBERTa(07.16)

weixin_43213559的博客

07-17

1674

模型在输入序列中随机遮盖（mask）一些令牌（tokens），然后预测这些被遮盖的令牌。参数越多，模型的容量越大，可以捕捉到更多的复杂特征，但也需要更多的计算资源来训练和推理。记得定义一下自己的local_model_path(文件夹（chemBERTa_files）所在的路径)这是在提示说我加载的模型不完整或有一些参数没有在预训练过程中保存下来。尝试加载模型时，遇到和之前一样的情况，用和之前一样ESM2的方法：本地加载。是模型池化层（pooler layer）的权重。根据错误信息，我加载的模型使用的是。

【深度学习】NLP之Transformer (1) Encoder

littlemichelle

04-04

2932

The Illustrated Transformer – Jay Alammar – Visualizing machine learning one concept at a time. 在机器翻译的任务中，使用RNN会造成梯度消失和长句子传递信息缺失的问题。LSTM只能缓解，如果想要进一步提升，就引入了Transformer。这里的新思想是不用RNN来做机器翻译。 ...

There were missing keys in the checkpoint model loaded: ['encoder.embed_tokens.weight', 'decoder.embed_tokens.weight', 'lm_head.weight'].

最新发布

12-29

### 解决 PyTorch Transformer Checkpoint 模型加载时缺失 keys 的问题当遇到 `state_dict` 和模型结构之间的 key 不匹配或缺少某些 key 时，通常是因为预训练模型和当前定义的模型之间存在架构差异。对于 Transformer 类型的模型来说，常见的问题是嵌入层和其他特定模块（如编码器、解码器）中的参数不一致。 #### 方法一：手动调整状态字典如果已知哪些键是必需但不存在于 checkpoint 中，则可以直接创建这些键并初始化其对应的张量： ```python import torch.nn as nn def adjust_checkpoint(checkpoint, vocab_size, embed_dim=512): # 创建新的权重矩阵用于填充 new_embeddings = nn.Embedding(vocab_size, embed_dim).weight.data # 将新创建的embedding加入到checkpoint中 checkpoint['encoder.embed_tokens.weight'] = new_embeddings.clone() checkpoint['decoder.embed_tokens.weight'] = new_embeddings.clone() # 对于lm_head部分，假设它是一个线性变换 lm_head_weight = nn.Linear(embed_dim, vocab_size).weight.data checkpoint['lm_head.weight'] = lm_head_weight.clone() return checkpoint ``` 这种方法适用于知道具体词汇表大小以及嵌入维度的情况[^1]。 #### 方法二：自适应扩展现有权重另一种更灵活的方式是在保持原有权重不变的情况下对其进行适当扩展，特别是针对像词嵌入这样的组件。这可以通过复制现有的权值来完成，并为新增加的部分随机初始化： ```python from collections import OrderedDict def expand_embedding_weights(checkpoint, target_vocab_size): original_embeddings = checkpoint.get('encoder.embed_tokens.weight') if original_embeddings is None or len(original_embeddings.shape) != 2: raise ValueError("Invalid embeddings shape") current_vocab_size, embed_dim = original_embeddings.size(0), original_embeddings.size(1) if current_vocab_size >= target_vocab_size: print(f"Current vocabulary size {current_vocab_size} already meets the requirement.") return checkpoint expanded_embeddings = torch.cat([ original_embeddings, torch.randn(target_vocab_size - current_vocab_size, embed_dim) ], dim=0) updated_checkpoint = OrderedDict([(k,v) for k,v in checkpoint.items()]) updated_checkpoint['encoder.embed_tokens.weight'] = expanded_embeddings updated_checkpoint['decoder.embed_tokens.weight'] = expanded_embeddings.clone() # 假设两者相同 # 如果有其他依赖项也需要相应更新 if 'lm_head.weight' not in checkpoint: updated_checkpoint['lm_head.weight'] = expanded_embeddings[:target_vocab_size].clone().transpose(0, 1) return updated_checkpoint ``` 这段代码会检查是否存在指定的关键字，并根据需要扩大它们的尺寸[^4]。 #### 方法三：利用模型类自动处理一些高级框架提供了内置的支持来自动生成缺失的参数。例如，在 Hugging Face Transformers 库中，可以使用 `AutoModelForSeq2SeqLM.from_pretrained()` 函数加载模型，并允许传递额外配置选项以覆盖默认行为。这种方式简化了许多细节上的操作，但对于定制化需求可能不够灵活[^2]。