琴1014-优快云博客

原创模型过拟合怎么办

当模型出现过拟合（Overfitting）时，意味着它在训练集上表现很好，但在验证集或测试集上的表现较差，通常是因为模型过度“记住”了训练数据中的细节，而未能学到有效的泛化能力。

2025-02-14 18:03:01 934

原创 epoch0，step4的时候，报错：loss无穷大。

解决方法：Learning rate=0.1改为0.0001。原因：最后一层的权重、偏置参数爆炸！已尝试：权重是否正确初始化，

2025-01-25 08:44:44 79

原创生成n个数值在min-max之间的等差列表，允许在小范围内随机

如果要求每个生成的元素是整数类型，可以在生成之后，将结果转换为整数。可以使用np.round()来四舍五入，然后将其转换为整数类型。

2025-01-16 14:22:16 174

原创 RNN、Attention、Transformer 和 CNN

的核心在于序列建模，擅长处理时间序列数据（如文本、音频、时间序列信号等），它通过循环结构使网络能够记住历史信息。在每一个时间步，RNN 的隐藏状态由当前输入和前一个隐藏状态共同决定： ht=f(ht−1,xt)h_t = f(h_{t-1}, x_t) 其中，hth_t 是当前隐藏状态，xtx_t 是当前输入，ff 是激活函数（如 tanh⁡\tanh 或 ReLU\text{ReLU}）。Attention是一种机制，用来动态地为序列中的不同位置分配权重，决定模型应该关注哪些信息。它通过计算。

2024-12-11 14:48:16 698

原创英文学术会议

在正式场合下，语言需要更为严谨、专业且礼貌。如果需要，我可以帮助你进一步调整语言，使其更加贴合你的研究主题和个人风格！在时间允许范围内，适度停顿以强调重要内容，避免语速过快。

2024-12-08 19:51:55 552

原创 def forward(self, x: Tensor) -＞ Tensor:其中x的形状是B，C，H，W，统计x[0][0]中不为0的最大值，最小值，平均值，中位数

要统计x[0][0]中的不为0的最大值、最小值、平均值和中位数，你可以使用torch中的相关函数。以下是如何在forward。

2024-12-06 19:23:23 155

原创两个损失的优化问题

加权相加是最常见的方法，适用于大多数情况。归一化加权可以帮助不同损失具有相似的量级，避免某个损失主导训练。自适应加权根据训练过程中各个损失的变化动态调整权重。多任务优化和梯度裁剪是针对特定问题（如梯度爆炸和任务冲突）设计的技巧。复合损失函数提供了一种更灵活和模块化的方式来处理多任务学习。根据你的实际情况，可以选择最合适的方法来组合这两个损失函数。

2024-12-06 16:57:12 863

原创训练时loss经过50epoch就从0.9降到0.1，而验证集却只从0.96降到0.89

减少非常缓慢时，这通常是一个信号，表明模型正在逐渐过拟合到训练数据，并没有很好地泛化到验证数据。下面是对此现象的详细分析及改进建议。通过以上方法，您可以有效提高模型的泛化能力，并改善验证集上的性能。适当减少模型的深度或宽度，以降低其复杂性。确保训练和验证数据的预处理方式一致。迅速下降，而验证集的。

2024-12-05 19:51:53 1274

原创将def split,def one_train,def evaluation这三个函数连同训练的代码写在了一个文件中，我将这三个函数和训练的代码分开写就不会爆GPU显存不够的错误了

如果内存问题仅出现在将所有代码写在一个文件中的情况，可能是由于某些不必要的计算图或数据没有及时清理，导致内存泄漏。在一个训练循环结束后，可以手动清理不再需要的数据和模型结果，以便释放显存。如果所有代码都写在一个文件中，可能在函数调用时，某些中间结果和变量的存储没有及时清理，导致显存占用持续累积。您将函数和训练代码分开写后，避免了内存持续占用和计算图堆积，显存问题得到解决。与训练代码分开写后，显存问题得以解决，这说明显存消耗是与代码结构相关的。错误的原因可能与代码的组织方式和显存使用有关。

2024-12-04 20:20:55 294

原创设置随机种子，在Python 内置、NumPy、PyTorch(CPU and GPU)上

【代码】设置随机种子，在Python 内置、NumPy、PyTorch(CPU and GPU)上。

2024-12-04 18:36:30 771

原创 MSE，MAE，RMSE和R^2等

R2R^2衡量模型对数据的拟合程度，其值范围为0,10, 1（有时可以小于0，表示模型预测效果很差）。MSE表示预测值与真实值之间误差的平方平均值，单位与目标变量平方一致。值越小，模型的预测性能越好。RMSE是MSE的平方根，保持了目标变量的单位，更易于解释。RMSE值越小，模型性能越好。MAE表示预测值与真实值之间误差的绝对值的平均值。值越小，模型的预测性能越好。调整后的R2R^2考虑了特征数量的影响，防止因增加特征而虚假提高模型拟合效果。专门用于目标值跨度较大的情况，通过对数变换减小异常值的影响。

2024-12-03 13:03:13 442

原创使用动态阈值来更新mse_loss,但是计算出的损失有无效值

通过上述方法，可以有效避免动态阈值引入的无效值问题。在每次计算损失之前，检查误差。动态阈值引入无效值（如。

2024-11-22 14:46:41 354

原创 pythonGPU循环常见错误！

RuntimeError: CUDA error: device-side assert triggeredCUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.

2024-10-21 15:14:19 103