深度学习系统的测试选择

研究论文《TestSelectionforDeepLearningSystems》探讨了基于模型不确定性选择测试数据的方法,实验证明不确定性高的样本有助于提升模型性能。实验对比了不同指标,发现不确定性度量在识别错误分类和加速再训练中表现出色。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本周粗略阅读了论文《Test Selection for Deep Learning Systems》,并参考了陈老师实验室发布的翻译,记录个人的阅读笔记,侵删。

本文主要内容:

本文基于模型不确定性对一组测试选择指标进行了实证比较,假设不确定性最大的样本同样也是信息量最大的样本,应优先使用再训练来改进。

在五个模型和三个图像分类问题上评估,证明了基于不确定性的度量具有很强的识别错误分类输入的能力,比惊讶指标(Surprise Adequacy)强三倍,并且优于覆盖相关指标。

还发现这些指标可以在再训练期间更快地提高分类准确性:比随机选择和所考虑的所有模型的其他最先进指标快两倍。

问题定义:

假设开发人员可以访问任意数量的输入(即没有标签的数据),并且只能标记任意数量的 k 输入。作者将测试输入选择命名为选择最有效的输入来标记的问题。

测试选择指标:

从dropout方法派生的度量来评估输入x对模型D的挑战程度。

实验设置:

使用Kendall相关性度量指标和错误分类之间的关系。

迭代再训练:

将原始训练集随机拆分为初始训练集和候选集,测试集保持不变。第一轮只使用初始训练集训练模型并计算其在测试集上的准确性。使用得到的最好模型来计算剩余候选数据上的测试选择指标。然后将通过指标选择的新图像从候选集添加到当前训练集获得增强训练集,重新训练模型。重复该过程,直到候选集为空。

实验结果及结论:

① 在处理原始数据时,不确定性指标(特别是 KL 和 MaxP)表现最好;

② 在处理原始数据和对抗性数据的混合时,MaxP 最有效;

③ 在与测试相关的实验中应谨慎使用对抗性数据;

④ 指标(特别是 KLp 和 Varp)使主要的分类准确度提高。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

海苔小饼干

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值