36、优化数据集与防止过拟合：从理论到实践

z2a3b4c5d

于 2025-08-16 14:55:00 发布

阅读量23

点赞数

CC 4.0 BY-SA版权

分类专栏： PyTorch深度学习实战文章标签：数据集优化防止过拟合数据增强

本文链接：https://blog.youkuaiyun.com/z2a3b4c5d/article/details/151034016

PyTorch深度学习实战专栏收录该内容

51 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

优化数据集与防止过拟合：从理论到实践

1. 理想数据集的模样与样本数量调整

在处理数据集时，我们不再局限于特定数量的样本。以下代码展示了如何根据条件确定数据集的长度：

def __len__(self):
    if self.ratio_int:
        return 200000
    else:
        return len(self.candidateInfo_list)

选择 200,000 个样本有诸多好处，它减少了开始训练到看到结果的时间，提供了更快的反馈，并且每个 epoch 有一个明确的样本数量。当然，你可以根据自身需求调整 epoch 的长度。

为了使功能更完整，我们添加了一个命令行参数：

class LunaTrainingApp:
    def __init__(self, sys_argv=None):
        # ... line 52
        parser.add_argument('--balanced',
                            help="Balance the training data to half positive, half negative.",
                            action='store_true',
                            default=False,
                            )

会员秒杀 ¥9.9 重磅福利

超级会员免费看