一、关于训练误差分析
二、关于错误的标注数据
背景:深度网络随机误差鲁棒性高,系统性误差鲁棒性低。
机制: 抽样分析误差分布,focus 最主要的误差部分。
方针:1.开发集和测试集需要同时修正;2.好坏都要关注; 3. 训练集可以有部分差异,同dev和testtest
吴:重视对训练误差样本的统计分析,帮助找到减小误差的最快方向。
三、快速搭建你的系统原型,不断迭代
四、在不同的划分上训练模型(让你的train数据集和test数据集来自不同分布,以此增多你的实验数据)
优先保证你的dev和test数据集最真实接近于真实的数据分布,train 数据优先级低于前两项,当zhen真实数据集不足,可以添加次真实的数据集添加用来train。 但是train 数据集建议仍旧daiy带有少量。
*不建议dev 、test 、train 均匀划分(真实+非真实)全部数据集