-
奖励曲线分析:
- 观察训练曲线是否平稳上升并最终稳定
- 论文图5显示所有策略都达到了类似的收敛水平
-
多次训练一致性:
- 如论文所做,用不同随机种子重复训练多次
- 结果一致表明框架稳健性好
-
学习率敏感性测试:
- 测试不同学习率下是否能收敛
- 如果只在极窄的学习率范围()内收敛,框架可能不稳定
模型训练只在非常狭窄的学习率范围内才能收敛的情况。例如,只有当学习率严格限制在0.00045-0.00055之间时才能稳定训练,稍微偏离就会导致训练失败或发散。这种高敏感性通常表明算法不够稳健(robutness)。
-
架构复杂度分析:
- 过深或过宽的网络可能难以收敛
- 评估参数数量与可用数据的比例
- 过深:神经网络层数过多(如数十层或更多)
- 过宽:单层中神经元数量过多(如每层数千个节点)
这两种情况都会导致参数数量剧增,可能引发训练困难、过拟合、梯度消失/爆炸等问题。
- 理想情况下训练样本数应显著多于模型参数数
- 经验法则建议训练样本数至少为参数数的5-10倍
- 比例失调会导致过拟合(参数多数据少)或欠拟合(参数少数据多)
-
梯度稳定性:
- 监控训练过程中的梯度范数
- 防止梯度爆炸或消失问题
-
真实部署验证:
- 最终测试是真实机器人上的表现
- 论文展示了实际部署成功的证据