问题记录：恢复某些层参数，遇到NotFoundError: Key conv2d_168/bias not found in checkpoint

最新推荐文章于 2022-08-12 11:15:16 发布

临江轩

最新推荐文章于 2022-08-12 11:15:16 发布

阅读量6.4k

点赞数

CC 4.0 BY-SA版权

分类专栏：网络程序文章标签： conv2d_168/bias NotFoundError

本文链接：https://blog.youkuaiyun.com/weixin_39880579/article/details/80627210

当尝试加载已训练的模型参数并调整网络结构后，遇到'Key conv2d_168/bias not found in checkpoint'的错误。问题源于缺少特定层的权重导入。解决方案在于确保正确导入所有必需的模型参数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题描述：对网络结构做了些修改，导入已训练的参数，出现NotFoundError

相关程序：

#State where your log file is at.
log_dir = './log2'

#State where your checkpoint file is 
checkpoint_file = './log/model.ckpt-300068'

#Define the scopes that you want to exclude for restoration
exclude = ['conv_0','conv_1','conv_2']
variables_to_restore = slim.get_variables_to_restore(exclude=exclude)

#Now we create a saver function that actually restores the variables from a checkpoint file in a sess
saver = tf.train.Saver(variables_to_restore)
def restore_fn(sess):
	return saver.restore(sess,checkpoint_file)
sv = tf.train.Supervisor(logdir = log_dir,summary_op = None, init_fn = restore_fn)

报错：

问题原因：没有导入参数

问题语句：

exclude = ['conv_0','conv_1','conv_2']
variables_to_restore = slim.get_variables_to_restore(exclude=exclude

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

临江轩

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

如何解决‘Key Conv/biases not found in checkpoint.......‘错误

weixin_43535665的博客

09-20

2578

出现场景参考[tensorflow object detection api教程]时出现此问题(https://blog.youkuaiyun.com/qq_38593211/article/details/82823255) 在运用ckpt文件生成pb文件的时候出现此报错完整报错信息 Caused by op 'save/RestoreV2', defined at: File "object_detection/export_inference_graph.py", line 156, in <mod

tensorflow报错 Key Conv/biases not found in checkpoint

xiongly123的博客

04-26

4376

最近用tensorflow object detection API 训练faster rcnn模型时出现了这个错误。我是这么解决的：将保存模型的文件夹（PATH_TO_MODEL）里面已有的模型删去，保持文件夹为空就好了。...

1 条评论您还未登录，请先登录后发表或查看评论

pycharm调试，找不到checkpoint文件

u013925378的博客

03-07

5433

使用pycharm进行训练和测试，训练产生chekpoint文件后，在测试时读入失败。 mnist_train.MODEL_SAVE_PATH ="./mobilenet_v1_model/"【运行的.py文件在mobilenet_v1_model所在的文件夹中：/home/xxx/tmp/slimTest/nets/】 ckpt = tf.train.get_checkpoint_state...

tensorflow报错：NotFoundError (see above for traceback): Key rnn/multi_rnn_cell/cell_1/basic_lstm_cel

Jafe123的博客

02-01

1201

在做机器人写唐诗的过程中，出现的报错信息：NotFoundError (see above for traceback): Key rnn/multi_rnn_cell/cell_1/basic_lstm_cell/weights not found in checkpoint [[Node: save/RestoreV2_6 = RestoreV2[dtypes=[DT_FLOAT], _dev...

Adam_1 not found in checkpoint

loovelj的博客

07-05

1791

今天训练网上的代码，目前想基于他们训练好的代码，restore ckpt文件的参数以后，再接着训练。但是加载完数据以后，报错为 Adam_1 not found in checkpoint 经过查找，应该是他们训练好的模型，没有存这些参数，经过查找方法，在GitHub上找到了答案，具体就是在checkpoint里找到所有的参数，和model文件里面的匹配，匹配上就用，匹配不上就算了。 def ...

Key rnn/basic_lstm_cell/bias not found in checkpoint

光英的记忆博客

06-24

1777

Traceback (most recent call last): File "C:\Users\2019\Anaconda3\envs\tensorflow-gpu_py36\lib\site-packages\tensorflow\python\client\session.py", line 1327, in _do_call return fn(*args) File ...

Node: ‘conv2d_transpose_1/conv2d_transpose/Conv2DBackpropFilter‘No algorithm worked Error messages

qq_39380838的博客

03-27

4693

NotFoundError: Graph execution error: Detected at node 'conv2d_transpose_1/conv2d_transpose/Conv2DBackpropFilter' Node: 'conv2d_transpose_1/conv2d_transpose/Conv2DBackpropFilter' No algorithm worked! Error messages:Profiling failure on CUDNN engine 1

cc:184 Key generator/g_d1_bn/beta not found in checkpoint

weixin_43809009的博客

04-02

758

目前我正在執行github上的專案pcgreat/zi2zi的專案執行過程中發生錯誤 log如下這是我的test.sh文件 PYTHONPATH=. python infer.py --model_dir=experiments/checkpoint/experiment_0 –batch_size=32 –source_obj=experiments/data/val.obj –emb...

NotFoundError: Key biases_1 not found in checkpoint [[node save_2/RestoreV2 (defined at \AppData\L

qq_38766019的博客

03-13

1638

当找不到检查点时，NotFoundError: Key biases_1 not found in checkpoint[[node save_2/RestoreV2 (defined at \AppData\Local\Temp/ipykernel_48952/3519746809.py:26) ]] 由于在Tensorflow 2.0 中，eager execution 是默认开启的。所以，需要先关闭eager execution使用tf.compat.v1.disable_eager_executio

【Bert4keras】解决Key bert/embeddings/word_embeddings not found in checkpoint

BetterBench的博客

08-23

2990

1 问题使用苏神的bert4keras，预训练后产生了多个文件，但是在训练加载预训练模型的时候出错Key bert/embeddings/word_embeddings not found in checkpoint （1）pretrain.py文件 # 预训练脚本 import os os.environ['TF_KERAS'] = '1' # 必须使用tf.keras import tensorflow as tf from bert4keras.backend import keras, K f

Key Conv/biases not found in checkpoint

qq_32791307的博客

06-01

1万+

import tensorflow as tf#save to file#remember to define same dtype and shape when restore#W = tf.Variable(tf.truncated_normal([2, 3]),dtype=tf.float32,name='weight')#b = tf.Variable(tf.truncated_norma...

tensorflow在载入模型的时候会出现Key Variable_4 not found in checkpoint的解决思路

被遗弃的庸才博客

05-27

1万+

1、首先是自己定义的参数变量是否和保存的参数变量的类型是一致的2、在文件下面是否有一个叫做chockpoint的东西存在3、最后如果运行多次出现NotFoundError (see above for traceback): Key Variable_4 not found in checkpoint [[Node: save_2/RestoreV2 = RestoreV2[dtypes=[DT...

日常填坑之TF模型加载“Key Variable_xxx not found in checkpoint”

最新发布

03-20

<think>嗯，用户遇到了TensorFlow加载模型检查点时出现的错误：“Key DecomNet/bn1_0/beta not found in checkpoint”。我之前已经给过他们一些解决方案，现在他们又提供了更详细的错误日志，我需要进一步分析。首先，错误信息明确指出在检查点中找不到DecomNet/bn1_0/beta这个变量。可能的原因包括变量命名不一致、模型结构变化或者检查点文件损坏。用户已经按照之前的建议检查了变量列表，但可能问题依然存在。用户这次的错误日志显示他们在尝试加载检查点时，TensorFlow在save_restore_v2_ops.cc中抛出了NOT_FOUND错误。这说明问题可能出现在变量名的映射上，或者检查点文件确实缺少这个变量。我需要考虑用户是否正确地执行了变量名检查，或者是否有其他潜在的问题。用户可能在加载检查点时没有正确指定作用域，或者模型代码中的层名称被修改了。例如，模型中的层可能没有正确使用命名空间，导致保存和加载时的变量名不一致。此外，用户可能在迁移或修改模型结构后没有更新检查点，导致部分变量缺失。另外，用户的环境信息显示他们使用的是Anaconda中的PyTorch环境，但错误却来自TensorFlow。这可能意味着环境中同时安装了TensorFlow和PyTorch，可能存在版本冲突或者检查点文件是用不同版本的TensorFlow保存的，导致加载时出现问题。还需要考虑用户是否正确使用了加载检查点的方法。例如，是否使用了tf.train.Saver或者tf.train.Checkpoint，并且是否正确指定了var_list。如果用户最近更新了TensorFlow版本，可能会有API的变化导致兼容性问题。可能的解决方案包括：再次确认检查点中的变量名，使用更灵活的加载方式如expect_partial()来忽略缺失变量，或者检查模型代码中的变量作用域是否正确。此外，用户可能需要检查检查点文件是否完整，或者尝试重新保存模型权重。用户可能需要进一步的帮助，例如提供模型定义和加载检查点的代码片段，以便更准确地定位问题。同时，提醒用户注意版本兼容性和命名空间的一致性，避免未来出现类似问题。</think>你的错误信息表明TensorFlow在加载检查点时无法找到名为 `DecomNet/bn1_0/beta` 的变量。以下是详细的解释和解决方法： --- ### **错误原因** - **直接原因**：检查点文件（`.ckpt`）中缺少模型代码中定义的 `DecomNet/bn1_0/beta` 变量。 - **潜在原因**： 1. **变量命名不一致**：模型代码中的变量作用域（scope）或名称与检查点中保存的名称不一致。 2. **模型结构修改**：模型在训练后被修改（例如删除了某层或重命名了变量）。 3. **检查点文件不完整**：检查点未正确保存或被其他代码覆盖。 --- ### **解决方案步骤** #### 1. **检查检查点中的变量名** - **列出检查点所有变量**：运行以下代码，查看检查点中实际保存的变量名称： ```python import tensorflow as tf checkpoint_path = '你的检查点路径' # 例如：'model.ckpt' variables = tf.train.list_variables(checkpoint_path) for name, shape in variables: print(f"变量名: {name}, 形状: {shape}") ``` - **观察输出**： - 如果输出中存在类似 `bn1_0/beta`（无 `DecomNet/` 前缀），说明变量作用域不一致。 - 如果完全缺失 `beta` 变量，可能是模型结构变更或检查点损坏。 #### 2. **修复变量名称映射** - **方案1：调整作用域**：如果检查点中的变量名缺少 `DecomNet/` 前缀，在模型代码中添加作用域： ```python with tf.variable_scope("DecomNet"): # 定义 bn1_0 层（示例） bn1_0 = tf.keras.layers.BatchNormalization(name="bn1_0") ``` 重新训练模型并保存，确保作用域一致。 - **方案2：手动映射变量**：使用 `tf.train.init_from_checkpoint` 指定名称映射： ```python var_list = { # 将检查点中的 "bn1_0/beta" 映射到当前模型的 "DecomNet/bn1_0/beta" "bn1_0/beta": tf.get_variable("DecomNet/bn1_0/beta", ...) } tf.train.init_from_checkpoint(checkpoint_path, var_list) ``` #### 3. **忽略缺失变量（仅限部分加载）** - 如果缺失变量可忽略（例如新增的层参数未在检查点中），使用 `expect_partial()` 跳过错误： ```python # 使用 tf.train.Checkpoint 加载 checkpoint = tf.train.Checkpoint(model=model) checkpoint.restore(checkpoint_path).expect_partial() print("部分加载成功，缺失变量将使用默认初始化值。") ``` #### 4. **验证检查点完整性** - **检查文件是否存在**：确保检查点目录包含以下文件： - `model.ckpt.index` - `model.ckpt.data-00000-of-00001` - `model.ckpt.meta`（可选，仅旧版需要） - **重新保存模型**：如果怀疑检查点损坏，尝试重新保存： ```python model.save_weights('new_checkpoint.ckpt') ``` #### 5. **版本兼容性检查** - **TensorFlow版本**：确保保存和加载检查点时使用的TensorFlow版本一致（例如2.x与1.x不兼容）。 - **代码变更记录**：回顾模型代码的历史修改，确认是否删除了 `DecomNet/bn1_0/beta` 相关层。 --- ### **附加排查建议** - **最小化复现**：尝试加载一个极简模型（仅包含报错层），验证是否能复现问题。 - **模型结构对比**： ```python # 打印当前模型所有变量名 for var in model.trainable_variables: print(var.name) ``` 与检查点变量列表对比，确认差异点。 --- ### **示例代码（修复作用域不一致）** 假设检查点中的变量名是 `bn1_0/beta`，而模型代码中变量名为 `DecomNet/bn1_0/beta`，可修改模型代码： ```python # 移除作用域定义（或与检查点作用域对齐） with tf.variable_scope(""): # 空作用域 bn_layer = tf.keras.layers.BatchNormalization(name="bn1_0") ``` --- 如果问题仍未解决，请提供以下信息： 1. 模型定义中 `DecomNet/bn1_0` 层的代码片段。 2. 检查点文件中的变量列表（通过 `list_variables` 输出）。 3. 使用的TensorFlow版本。