36、数据集优化与过拟合处理：提升模型性能的策略

onion

于 2025-08-16 16:24:18 发布

阅读量31

点赞数

CC 4.0 BY-SA版权

分类专栏： PyTorch深度学习实战文章标签：数据集优化过拟合处理数据增强

本文链接：https://blog.youkuaiyun.com/onion/article/details/151034168

51 篇文章 ¥499.90

订阅专栏¥69.90

数据集优化与过拟合处理：提升模型性能的策略

在构建数据集时，我们不再局限于特定数量的样本。为了减少训练开始到看到结果的时间，并获得每个 epoch 清晰的样本数量，我们可以根据条件设置数据集的长度。以下是相关代码：

def __len__(self):
    if self.ratio_int:
        return 200000
    else:
        return len(self.candidateInfo_list)

这里，如果 self.ratio_int 为真，则返回 200000 个样本；否则，返回 self.candidateInfo_list 的长度。你可以根据自己的需求调整 epoch 的长度。

为了平衡训练数据，我们添加了一个命令行参数 --balanced ，并将其传递给 LunaDataset 构造函数。以下是具体代码：

class LunaTrainingApp:
    def __init__(self, sys_argv=None):
        # ... line 52
        parser.add_argument('--balanced',