针对loos为0.69或2.3，保持不变问题。

最新推荐文章于 2025-06-25 15:06:12 发布

原创最新推荐文章于 2025-06-25 15:06:12 发布 · 2k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#loss不下降 #0.69和2.3

本文探讨了深度网络训练中loss值固定在一个数值上下波动不下降的现象，分析了可能是由于权重初始化不当导致的问题，并通过调整权重初始化参数std从0.01到0.1成功解决了该问题。

部署运行你感兴趣的模型镜像

最近，训练深度网络时出现一个问题，就是loss从模型训练开始就在某个值上下波动，保持不变。例如，2分类问题是0.69,10分类问题是2.3左右，因为刚开始都是用的mnist数据集。

训练的提示如下图：

对于为什么会出现这种问题，想知道原因的可以参考这篇博客，里面给出了原因以及从哪些方面检查问题。

而我，就讲下我的一个粗心小错误。如果，你检查你的数据集没问题，网络结构也正常。不妨，考虑是不是你初始化的权重（weights）不太合适。

我出现这种现象时候的权重初始化，std=0.01。

weights_initializer=tf.truncated_normal_initializer(0.0, 0.01)

我然后将上面的参数，改std=0.1时，网络就正常训练。

weights_initializer=tf.truncated_normal_initializer(0.0, 0.1)

如果，真的出现上面现象，而有找不到其他的问题，不妨考虑一下，是不是权重参数不合适造成的。

您可能感兴趣的与本文相关的镜像

GPT-oss:20b

图文对话

Gpt-oss

GPT OSS 是OpenAI 推出的重量级开放模型，面向强推理、智能体任务以及多样化开发场景

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

GP_Lee

关注关注

0
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

当AI开始说谎：解码思维链背后的逻辑陷阱

步子哥的博客

11-09

在一个AI能够写诗、编程、诊断疾病的时代，我们却突然发现，这位"全知全能"的数字天才，竟然不擅长一件小学生都该掌握的技能——检查自己的作业。

Linux系统ELF可执行文件格式详解（Qt代码分解文件）

啊渊的专栏

12-27

679

本文主要讲解ELF文件格式分解讲解。并且会使用c代码将信息打印出来方便读者理解elf格式，并且手写一个ELF文件解析工具。文章中的执行环境为ubuntu 22.04 x64操作系统中编译的ELF文件，因此我们按照x64的来解析文件。

参与评论您还未登录，请先登录后发表或查看评论

keras图像二分类Loss一直0.69

lx127372的博客

04-20

5570

最近做图像分类遇到了loss下降的0.69就不下降了，一直停在那里，acc在0.5左右。然后在网上查了很多资料，搞清楚了为什么会出现这种情况： https://www.jianshu.com/p/45c2180cab17 https://blog.csdn.net/weixin_40267472/article/details/82216668 https://zhuanlan.zhihu....

深度学习十分类loss一直保持在2.3是什么问题，求解答

qq_28063447的博客

05-27

5823

深度学习问题求大神解答-*- coding=UTF-8 -*- 最近在做基于alexnet网络训练cifar10的分类问题，现在遇到问题是训练中loss一直保持在2.3左右不变，准确率也不上升求各位大佬帮我看下代码，指出问题，谢各位大佬代码如下： -- coding=UTF-8 -- import tensorflow as tf import os import numpy as np #...

Tensorflow复现各版本Resnet测试cifar10（问题归纳）

Xb的博客

05-17

1584

Tensorflow复现各版本Resnet测试cifar10一.Resnet的优越性二.代码实现（Resnet18为例）1.核心部分（残差单元）2.创建resnet3.图片预处理（纯python实现，可自行替换）4.训练5.测试复用三.问题汇总1.loss=2.3，accuracy_score=0.12.数据多，预处理缓慢，训练启动耗时3.训练集正确率91%，测试集仅有87%四.总结经过这段时间的努力，了解了resnet相关知识，并完成代码实现，同时也遇到了相当多的问题，特此记录。一.Resnet的优越

损失一直是0.69

weixin_44020747的博客

12-29

2435

在进行UNet实验时，发生一件令人崩溃的事情，将CASIA1.0换成CASIA2.0时，仅仅换了个数据集！仅仅换了个数据集！仅仅换了个数据集！就出现了计算损失一直是0.69 经过多方查找，原因是loss函数的问题，我在网络输出之后加入了sigmoid激活函数，但是使用的loss函数是BCEWithLogitsLoss。而BCEWithLogitsLoss是BCELoss加上一个sigmoid函数，所以我把loss改为BCELoss之后loss就开始正常波动了！！！！！！！记录一下，虽然没有什么技术上的提

VGG16做二分类时loss维持0.69不降解决办法

Manuel667399的博客

04-14

1122

在使用VGG16做二分类任务（如猫和狗分类）时，可能会遇到这种情况：损失值loss总是维持在0.69，或者准确率恒等于50%，无论如何调整学习率（尝试过0.001、0.0001和0.00001），loss始终不降。一种简单的解决办法在每个卷积层的后面添加一个BN（Batch Normalization）层。

精选资源

LOOS:分析分子模拟数据-开源

04-28

LOOS是一个轻量级的面向对象的软件库，用于创建用C ++编写的用于分析分子模拟数据的新工具。主要设计目标是允许临时程序员轻松实现新的分析方法。此页面不再更新。请参阅https://github.com/GrossfieldLab/loos...

brews-and-loos

03-13

标题“brews-and-loos”可能是指一个与编程和轻松氛围相关的项目，可能是关于使用JavaScript进行事件处理的示例或工具。"事件化"在IT领域通常指的是在软件设计中，尤其是前端开发中，如何通过事件监听、触发和处理来...

20、求解时间问题与二元最大约束满足问题复杂度分析

热门推荐

AI浩

05-28

1万+

最近在尝试用CrossEntropyLoss(),实现猫狗图像分类的功能。遇到了一个奇怪的问题：loss一直停留在0.69附近，我查了查loss函数的公式,公式如下：

为什么神经网络模型在测试集上的准确率高于训练集上的准确率？

种花家的奋斗兔的博客

03-21

1万+

类似下图：或者下图：来自：吴恩达机器学习Regularization部分。如上图所示，有时候我们做训练的时候，会得到测试集的准确率或者验证集的准确率高于训练集的准确率，这是什么原因造成的呢？经过查阅资料，有以下几点原因，仅作参考，不对的地方，请大家指正。（1）数据集太小的话，如果数据集切分的不均匀，或者说训练集和测试集的分布不均匀，如果模型能够正确捕捉到数据内部的分布模式话...

神经网络做二分类 loss=0.6931一直不下降

城北周杰伦的博客

03-12

5939

昨天做二分类的时候遇到一个问题，不管自己的网络怎么训练二元交叉熵的loss一直为0.6931，不管我改变超参数还是初始化的权重和偏倚总是不变，最后去看了一下大家有没有遇到这个问题，结果发现 log(0.5)=0.6931 也就是说你的准确度在0.5左右，我第一反应0.5也不是很差啊！等等，0.5？？？二分类的准确度为0.5左右，这和我直接猜有什么区别吗？？？？搞事？？？我思前想后发现网络的结构啥的...

关于CNN训练时loss停留在0.69，acc为0.5左右的问题

weixin_44791757的博客

04-13

5665

最近在用CNN作为主干网络来训练二分器时，出现了loss停留在0.69左右，acc在0.5左右的情况，在这里记录一下解决方法。首先是我在网上收集到的方法以及我最终的解决方法。方法1：查看数据有没有问题，看输入的数据及label是否正确。方法2：数据没有问题的话，再查看一下输入到网络前你的data是否进行了归一化处理，如果数据没有进行归一化处理模型也容易爆炸无法收敛。方法3：如何前面两个没有出现问题的话很大概率就是数据分布的问题，这也是一般模型无法收敛的重要原因，其解决方法就是在网络的最后一层

Tensorflow中用VGG19做二分类-loss出现0.693174解决方法

check2255的博客

10-22

6423

在Tensorflow下用VGG19 pre-train的model跑一个人脸表情库，做一个二分类。出现loss除了迭代的第一个值，其余输出均是0.693174 百度解决方法，发现需要在全连接层的权重加权重衰减（l2正则化）在把权重衰减loss和交叉熵loss添加到总loss里。 Tensorflow中具体实施如下： flattened_shape = 8 * 8 * 512

关于BCELoss为啥一直在0.69降不下去

静かな森林的博客

01-09

977

最后排查出来是我的模型在Sigmoid以前用上了ReLU，而ReLU会使输出非负。算是我的低级错误吧，但希望大家引以为戒。

二分类分割调试

boy854456187的博客

03-31

413

BUG List 问题1：Loss值固定不变解决方法： 1，改变初始化值标准差stddev，loss开始变化； 2，训练代码忘记运行adam优化器；参考文章：深度学习（神经网络）训练时loss不变的可能原因问题2：Loss Nan 解决方法： sparse_softmax_cross_entropy_with_logits的logits输入前又做了一遍softmax。参考文章：tf.nn.sparse_softmax_cross_entropy_with_logits 问题3：Tensorflo

【python】训练loos值为nan，是由于训练数据中有空值

qq_45047246的博客

08-10

729

【python】训练loos值为nan，是由于训练数据中有空值

elf结构有哪些内容，为什么要存在这些

03-01

<think>好的，用户问到了ELF结构的内容以及为什么存在这些部分。我需要先回忆一下ELF（Executable and Linkable Format）的基本知识。ELF是Unix和类Unix系统中常见的二进制文件格式，用于可执行文件、目标代码、共享库等。用户可能是在学习逆向工程、编译原理或者系统编程时遇到这个概念，需要详细了解其结构组成和设计原理。首先，我需要明确ELF的主要结构部分。ELF文件通常由几个关键部分组成：ELF头、程序头表、节头表，以及各种节（如.text、.data等）。每个部分的作用不同，比如ELF头描述了文件的基本信息，程序头表用于加载执行，节头表用于链接和调试。接下来，用户想知道为什么存在这些结构。这时候需要解释每个部分存在的必要性。例如，ELF头帮助操作系统识别文件类型和架构，程序头表告诉加载器如何将文件映射到内存，节头表则在链接阶段帮助链接器处理符号和重定位等。可能用户没有明确说明他们的背景，但考虑到ELF属于比较底层的结构，用户可能有一定的编程或系统知识基础。需要避免过于技术化的术语，同时确保解释清晰。此外，用户可能想知道这些结构如何协同工作，或者为什么设计成这样的结构，可能需要从历史背景、设计目标等方面补充，比如ELF替代了a.out格式，提供了更好的灵活性和扩展性。在组织回答时，可以按照结构分点解释，每个部分包括内容和存在意义。使用例子和比喻可以帮助理解，比如将ELF头比作书的目录，程序头表比作组装说明书等。同时需要注意LaTeX格式，确保行内公式正确，独立公式单独成段。最后，检查是否有遗漏的重要部分，如动态链接相关的节或符号表等，确保覆盖用户可能关心的内容。</think>ELF（Executable and Linkable Format）是**Unix/Linux系统下可执行文件、目标文件、共享库的标准格式**，其结构设计实现了从代码到内存映射的全流程管理。以下从核心结构和设计必要性两个维度解析： --- ### 一、ELF核心结构组成采用分层设计，包含**头-段-节**三级体系： #### 1. ELF头（ELF Header） ```c typedef struct { unsigned char e_ident[16]; // 魔数（7F 45 4C 46） Elf64_Half e_type; // 文件类型（如ET_EXEC、ET_DYN） Elf64_Half e_machine; // CPU架构（如x86-64=0x3E） Elf64_Word e_version; // 版本号 Elf64_Addr e_entry; // 程序入口地址 Elf64_Off e_phoff; // 程序头表偏移量 Elf64_Off e_shoff; // 节头表偏移量 // ...其他字段（总长度64字节） } Elf64_Ehdr; ``` **存在意义**：相当于文件身份证，提供快速验证（通过魔数）、架构匹配检查、入口定位等基础功能。 --- #### 2. 程序头表（Program Header Table）每个条目描述一个内存段： ```c typedef struct { Elf64_Word p_type; // 段类型（PT_LOAD=可加载段） Elf64_Word p_flags; // 权限标志（R/W/X） Elf64_Off p_offset; // 段在文件中的偏移 Elf64_Addr p_vaddr; // 虚拟地址 Elf64_Addr p_paddr; // 物理地址（通常等同虚拟地址） Elf64_Xword p_filesz; // 文件中的大小 Elf64_Xword p_memsz; // 内存中的大小 // ...对齐字段 } Elf64_Phdr; ``` **存在意义**：指导操作系统加载程序，例如： - `PT_LOAD`段定义代码/数据在内存中的布局 - `PT_INTERP`指定动态链接器路径（如`/lib64/ld-linux-x86-64.so.2`） --- #### 3. 节头表（Section Header Table）描述文件中的各个节（section）： ```c typedef struct { Elf64_Word sh_name; // 节名称字符串表索引 Elf64_Word sh_type; // 节类型（如SHT_PROGBITS） Elf64_Xword sh_flags; // 节属性（SHF_ALLOC等） Elf64_Addr sh_addr; // 内存映射地址 Elf64_Off sh_offset; // 节在文件中的偏移 Elf64_Xword sh_size; // 节大小 // ...其他字段（链接信息、对齐等） } Elf64_Shdr; ``` **存在意义**：支持链接器和调试器，典型节包括： - `.text`：机器指令 - `.data`：已初始化的全局变量 - `.bss`：未初始化数据（不占文件空间） - `.symtab`：符号表 - `.strtab`：字符串表 --- #### 4. 动态链接相关结构 ```c // 动态节（.dynamic） typedef struct { Elf64_Sxword d_tag; // 类型（如DT_NEEDED） Elf64_Xword d_val; // 值或指针 } Elf64_Dyn; // 全局偏移表（GOT）和过程链接表（PLT） // 实现延迟绑定（lazy binding） ``` --- ### 二、设计必要性解析 #### 1. 模块化分离 | 层级 | 作用对象 | 典型应用场景 | |----------|--------------|---------------------| | 程序头表 | 操作系统加载器 | 程序执行时的内存映射 | | 节头表 | 链接器/调试器 | 符号解析、地址重定位 | 这种分离使得： - 加载器无需理解符号信息即可加载程序 - 链接器无需处理内存权限细节 #### 2. 性能优化机制 - **按需加载**：通过`PT_LOAD`段标记，允许延迟加载数据段 - **写时复制**：对只读代码段（`.text`）共享物理内存 - **地址无关代码**（PIC）：通过GOT/PLT实现动态库的高效加载 #### 3. 安全控制 - 段权限标志（`p_flags`）实现W^X（写与执行互斥）保护 - 节头表中`SHF_TLS`支持线程本地存储隔离 - `.eh_frame`节实现栈展开（stack unwinding），增强异常安全性 #### 4. 扩展性设计 - `e_ident[EI_OSABI]`字段支持多操作系统ABI兼容 - 未使用字段保留未来扩展空间（如RISC-V新增浮点扩展标记） - 自定义节类型（`SHT_LOOS`到`SHT_HIOS`范围）允许厂商扩展 --- ### 三、典型文件布局示例 ``` +-------------------+ | ELF Header | → 定位程序头和节头 +-------------------+ | Program Headers | → 指导加载器工作 +-------------------+ | .text Section | → 可执行代码 +-------------------+ | .rodata Section | → 只读数据（字符串常量等） +-------------------+ | .data Section | → 已初始化全局变量 +-------------------+ | Section Headers | → 链接/调试元数据 +-------------------+ ``` --- ### 四、历史演进对比 | 格式 | 核心缺陷 | ELF的改进 | |---------|---------------------------|----------------------------------| | a.out | 固定段结构，不支持动态链接 | 灵活段/节定义，支持共享库 | | COFF | 符号表限制（长度固定） | 使用字符串表实现任意长度符号命名 | | PE | Windows专用，缺乏跨平台 | 架构中立设计（通过e_machine适配） | 通过这种结构设计，ELF实现了**一次编译，多平台运行**（通过交叉编译工具链），同时平衡了执行效率和开发灵活性。