优化数据集与防止过拟合:从理论到实践
1. 理想数据集的模样与样本数量调整
在处理数据集时,我们不再局限于特定数量的样本。以下代码展示了如何根据条件确定数据集的长度:
def __len__(self):
if self.ratio_int:
return 200000
else:
return len(self.candidateInfo_list)
选择 200,000 个样本有诸多好处,它减少了开始训练到看到结果的时间,提供了更快的反馈,并且每个 epoch 有一个明确的样本数量。当然,你可以根据自身需求调整 epoch 的长度。
为了使功能更完整,我们添加了一个命令行参数:
class LunaTrainingApp:
def __init__(self, sys_argv=None):
# ... line 52
parser.add_argument('--balanced',
help="Balance the training data to half positive, half negative.",
action='store_true',
default=False,
)
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



