tf训练时出现Function call stack: distributed_function -＞ distributed_function

原创已于 2022-11-07 17:19:21 修改 · 911 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #人工智能 #javascript

于 2022-11-04 17:16:56 首次发布

tensorflow踩坑日记专栏收录该内容

5 篇文章

订阅专栏

本文针对在使用TensorFlow进行训练过程中遇到的Functioncallstack错误进行了详细分析，并提供了多种解决方案，包括调整数据集数量、增加训练集、设置GPU数量、调整线程数等方法。此外还介绍了如何通过设置GPU内存增长及禁用动态执行来解决该问题。

部署运行你感兴趣的模型镜像

在使用tf进行训练时，有时候会莫名其妙出现Function call stack: distributed_function -> distributed_function这种错误。

解决方法：调整数据集数量，增加训练集，设置GPU数量，以及调整线程数。总有一个方法能够解决。

如果都解决不了，加上：

 gpus = tf.config.experimental.list_physical_devices(device_type='GPU')
 for gpu in gpus:    
     tf.config.experimental.set_memory_growth(gpu, True)

分配每个gpu的使用内存

或者加上tf.compat.v1.disable_eager_execution()

tf.compat.v1.disable_eager_execution()
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"

您可能感兴趣的与本文相关的镜像

TensorFlow-v2.15

TensorFlow

TensorFlow 是由Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。它提供了一个灵活的平台,用于构建和训练各种机器学习模型

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ttzss

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Pytorch分布式报错1.non-zero exit status，2.cuDNN error:CUDNN_STATUS_INTERNAL_，3.CUDA error:illegal memory

科研学习笔记！

07-26

3083

1.returned non-zero exit status 1. One epoch之后报错，信息如下： RuntimeError: Expected to have finished reduction in the prior iteration before starting a new one. This error indicates that your module has parameters that were not used in producing loss. You..

Peft库实战（二）：Lora微调mt5-xxl【Seq2Seq：翻译、自动摘要、信息抽取】

u013250861的博客

07-02

842

【代码】Peft库实战（二）：Lora微调mt5【Seq2Seq：翻译、自动摘要、信息抽取】

参与评论您还未登录，请先登录后发表或查看评论

Kaggle踩坑指南--2.Function call stack: distributed_function->distributed_function

qq_25738937的博客

02-27

1万+

在训练模型model.fit的时候报错了，直接上图其实这里有两个问题，一个是NotFundError, 一个是Function call stack。但是，一般会直接在意最后一个，而忽略第一个。一、 Function call stack 请教了大神**@日月光华**，设置GPU显存按需申请 import tensorflow as tf gpu = tf.config.experimen...

Tensorflow GPU 报错Function call stack: distributed_function

Eric_wangh的博客

08-07

4703

Tensorflow GPU 报错Function call stack: distributed_function Tensorflow GPU 报错Function call stack: distributed_function 在用tensorflow训练网络时，报错Function call stack:distributed_function 可以程序之前添加如下代码解决： physical_devices = tf.config.experimental.list_physical_devi

对于tensorflow GPU训练下Function call stack: train_function 问题的解决（.fit_generator callback）

热门推荐

Link_night的博客

07-14

1万+

一、错误记录： callbacks = callbacks_list#callbacks_list File "C:\Users\123\anaconda3\envs\py37\lib\site-packages\tensorflow\python\util\deprecation.py", line 324, in new_func return func(*args, **kwargs) File "C:\Users\123\anaconda3\envs\py37\lib\sit...

tensorflow2.0报错：Function call stack:distributed_function

04-11

1576

可以明确地说是GPU资源不足，更要声明的是，在使用各类平台提供的jupyter使用GPU时，开启多个tap页面时，由于Tensorflow占用资源机制是有多少就全部占用，那么在没有提前设置资源使用量时，只有第一个开启的才会成功启动，其余的都会造成上述报错可以先关闭所有页面，然后重新启动，并进行如下配置 # import tensorflow as tf import os os.environ['CUDA_VISIBLE_DEVICES']="0" # 指定哪块GPU训练 config=tf.c

Function Call Stack

09-19

1021

从汇编语言看，函数的调用就是CALL和RET两条指令。其中CALL负责将返回地址(即CALL指令下一个指令的PC)压入堆栈，然后跳转到CALL指令中所指定的PC开始执行。而RET则相反，从堆栈中弹出返回地址，并重新跳转到返回地址开始执行。因此从汇编语言层面看，所有函数参数和返回值的传递，寄存器的保护，以及局部变量空间的分配都需要显式地通过堆栈来完成。尤其是对函数参数和返回值，函数及其调用者都必须遵循相同的规则在堆栈中存放上述信息，从而保证这些信息在两者之间传递的正确性。这个规则就是Calling Conve

最新发布

09-19

@tf.function def test_matrix(): a = tf.random.normal([10000, 10000]) return tf.linalg.matmul(a, a) print(test_matrix()) # 应返回计算结果而非错误 ``` ### 版本兼容参考表 | 组件 | 推荐版本组合 | 验证...

TorchDynamo - FX Graph

weixin_42654107的博客

08-13

976

TorchDynamo在CPython的Frame Evaluation过程中增加了Hook，在Python字节码真正执行前，将Pytorch Operation捕获为FX Graph的形式，再动态修改字节码，实现JIT的编译和优化。TorchDynamo机制类似DynamoRIO的机制，所以取名为TorchDynamo。这个方案拥有如下优势：Python支持完备：可以轻松地fall back到原始的Bytecode执行（eager mode）。

大学数学二课件朱玉灿主编复变函数与实函数

03-03

福州大学教材课件顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶

function call stack

all for one，one for all

03-29

1417

写得太好了忍不住，直接复制过来的，侵删！https://www.recurse.com/blog/7-understanding-c-by-learning-assembly … Abstraction layers are great tools for building things, but they can sometimes get in the way of learning. My

Python---function call

weixin_30236595的博客

12-28

515

util_m.py: import sys def util_test(string): ''' parameter description: string: string of object return none ''' print(string) list1=['1',2,3,4] def built...

函数调用栈一例

天秤座的唐风

03-08

313

　　前几天和柯柯交流一个小问题，说是如何在一个函数内得到调用该函数的函数地址。有点拗口，就是说如果有一个函数A（当然我们在这个问题中并不知道它是哪个函数）调用了B函数，现在希望用个什么办法得到A函数的地址。   　　我首先联想到的是，一般调试器都能给出嵌套的函数调用关系。那么肯定是有什么办法解决这个问题。上网查了一通之后只找到一些debug用的API和一些开发环境提供的调整宏...

Function call stack错误的解决方法

Tesla_td的博客

03-20

3054

运行Resnet50 出现类似错误，提示Function call stack 一开始没搞懂，以为网络层出现了问题。尝试很多无果。最后发现是batchsize太大了，导致内存不足。把batchsize调小成功解决问题。

跑深度学习模型报错：Function call stack:train_function -＞ train_function

fu_jian_ping的博客

10-31

4444

今天在跑自己设计的深度学习模型时出现了以下问题： InternalError: 2 root error(s) found. (0) Internal: Blas GEMM launch failed : a.shape=(12, 3), b.shape=(3, 32), m=12, n=32, k=3 [[node model/dense_3/MatMul (defined at <ipython-input-16-5a73e5716594>:10) ]] [[gradien

跑Mask-RCNN代码时遇见Function call stack:keras_scratch_graph

qq_59811376的博客

09-11

402

该报错主要原因是Tensorflow不能识别虚拟环境的cuda和cudnn，导致训练开始第一轮就报错。只需要将配置虚拟环境添加到系统环境变量中就可以解决啦！

tensorflow2.3版本 LSTM作为最后输出层报错Function call stack: train_function -＞ train_function -＞ train_functio

qq_36390747的博客

09-28

4511

model = Sequential() model.add(LSTM(32, input_shape=[1, 2], return_sequences=True)) model.add(LSTM(64, return_sequences=True)) model.add(LSTM(1, return_sequences=False)) 在model.fit 处报错但在最后一层LSTM后面，加入dense层，则不会报错在使用tensorflow1.14配合keras2.3.1版本，不会报错求解！

GPU在model.fit时存在的问题

Be busy living or busy dying

06-03

1957

文章目录问题解决方法参考来源链接问题解决方法添加下面代码：参考来源链接 https://blog.youkuaiyun.com/tsyccnh/article/details/102938368

function call stack: distributed_function

06-06

函数调用栈是指在程序执行过程中，每次函数调用时，系统会将当前函数的信息（如函数名、参数、返回地址等）压入栈中，等到函数执行完毕后再弹出栈顶元素，继续执行上一个函数。分布式函数是指将一个函数分成多个部分...