痛点问题:开发人员经常将数据集分成训练集、验证集和测试集。测试集主要用于测量训练模型的准确性(作为性能通用性的指标),因此,最终开发的深度神经网络通常具有报告的测试准确性。然而,原始测试集往往只覆盖了数据分布的一部分(通常是与训练数据相同的分布)。在实际环境中,不可见数据的分布往往不明确,报告的测试精度难以反映实际使用中的实际模型性能。因此,除了在原始测试数据上测试模型之外,非常需要在新数据上对dnn进行性能评估,这些新数据通常可以从每天或每月的大量传入数据中获得。在未标记的数据上评估模型是具有挑战性的。更重要的是,标记所有新数据(可能很大)是一项耗费人力和时间的工作。
解决思路:数据的预测精度与数据到决策边界的距离之间可能存在联系。采用现有的基于dropout的不确定性来估计数据实例与决策边界之间的距离。通过将不确定性分数分成n个区间,我们得到n个桶的距离分布。然后,我们可以根据数据实例的不确定性得分将它们映射到一个桶中。这样,我们就可以根据属于该桶的原始测试数据(带标签)作为支持证据(点)来估计每个桶的准确性。最后,给定没有标签的新数据,我们将它们映射到不同的桶中,并利用估计的桶精度来计算新数据的总体精度。与现有的需要标记数据来计算模型精度的技术相比,Aries是完全自动化的,无需额外的人工标记工作。
为了评估Aries的有效性,我们对两个常用的数据集(CIFAR-10和Tiny-ImageNet)、四种不同的DNN架构(包括ResNet101和DenseNet121)进行了深入的评估。除了原始测试数据,我们还使用了13种转换后的测试集(例如,增加亮度的数据)来模拟现实可能出现的新的未标记数据,其中转换后的数据可能遵循与原始测试数据不同的数据分布。结果表明,Aries可以精确地估计DNN模型在新的未标记数据上的性能,而无需进一步标记。与实际精度相比,使用默认参数设置的估计精度相差0.03% ~ 2.60%。
&nb

文章介绍了一种新型深度学习测试技术Aries,利用dropout的不确定性估计数据到决策边界的距离,无需人工标记就能有效评估未标记数据的模型性能。实验证明Aries在多种数据集和模型架构上表现优秀,优于现有无标记和测试选择方法。
最低0.47元/天 解锁文章
982

被折叠的 条评论
为什么被折叠?



