问题:Kernel restarting 某某文件 appears to have died.It will restart automatically.
几种可能的原因:
1.内存不足,运行程序中占用太多的CPU内存或者GPU内存
解决方法如下:
可以减小批次大小:降低每个批次的样本数量,以减少内存占用。虽然较小的批次大小可能会增加训练时间,但可以减轻内存压力。
例:
from torch.utils.data import DataLoader
train_data = DataLoader(train_set, batch_size=64, shuffle=True)
test_data = DataLoader(test_set, batch_size=128, shuffle=False)
2.网络中包含坏梯度(适用于神经网络问题)
使用ReLU激活函数的网络通常会受到“坏死神经”的影响。后者是 由于不良梯度的影响。这可能会对网络的性能造成影响。甚至会使整 个神经网络瘫痪。
原理:ReLU激活函数的梯度在正值为1,负值为0。当输入小于0时,输入的微弱变化并不会对输出造成影响,短期看,由于正值的大梯度这并不会成为问题。但由于多层神经网络的叠加,其他层的负值权重会对 梯度很大的正值变为梯度为0的负值。因此,一些隐藏单元会对最后 的函数造成坏的梯度,从而导致权重无法更新,影响整个神经网络。
解决办法:
如果发现多个训练周期以后损失函数都没有收敛,那么可能是由于 ReLU激活函数造成的。尝试切换到leaky ReLU或ELU。然后再看看 问题是否解决。
3.可能是pil包的问题,可电脑上的某个配置不兼容
解决方法:在项目中添加语句
import os
os.environ[“KMP_DUPLICATE_LIB_OK”]=“TRUE”
也可参考文章解决文件问题YOLOv5 OMP: Error #15: Initializing libiomp5md.dll, but found libiomp5md.dll already initialized.OMP-优快云博客