本周粗略阅读了论文《Test Selection for Deep Learning Systems》,并参考了陈老师实验室发布的翻译,记录个人的阅读笔记,侵删。
本文主要内容:
本文基于模型不确定性对一组测试选择指标进行了实证比较,假设不确定性最大的样本同样也是信息量最大的样本,应优先使用再训练来改进。
在五个模型和三个图像分类问题上评估,证明了基于不确定性的度量具有很强的识别错误分类输入的能力,比惊讶指标(Surprise Adequacy)强三倍,并且优于覆盖相关指标。
还发现这些指标可以在再训练期间更快地提高分类准确性:比随机选择和所考虑的所有模型的其他最先进指标快两倍。
问题定义:
假设开发人员可以访问任意数量的输入(即没有标签的数据),并且只能标记任意数量的 k 输入。作者将测试输入选择命名为选择最有效的输入来标记的问题。
测试选择指标:
从dropout方法派生的度量来评估输入x对模型D的挑战程度。
实验设置:
使用Kendall相关性度量指标和错误分类之间的关系。
迭代再训练:
将原始训练集随机拆分为初始训练集和候选集,测试集保持不变。第一轮只使用初始训练集训练模型并计算其在测试集上的准确性。使用得到的最好模型来计算剩余候选数据上的测试选择指标。然后将通过指标选择的新图像从候选集添加到当前训练集获得增强训练集,重新训练模型。重复该过程,直到候选集为空。
实验结果及结论:
① 在处理原始数据时,不确定性指标(特别是 KL 和 MaxP)表现最好;
② 在处理原始数据和对抗性数据的混合时,MaxP 最有效;
③ 在与测试相关的实验中应谨慎使用对抗性数据;
④ 指标(特别是 KLp 和 Varp)使主要的分类准确度提高。