深度神经网络鲁棒性评估与智能采样优化
1. 深度神经网络全局类别鲁棒性评估
1.1 评估结果
在使用 Google Colab 机器进行评估时,每个类别花费不到 21 分钟。各 CIFAR10 类别有着不同的全局鲁棒性得分以及相应的概率误差,具体如下表所示:
| 类别 | 全局鲁棒性得分(PGCR) | 误差可能性 |
| — | — | — |
| 飞机(Airplane) | 99.91% | 低于 0.0005% |
| 猫(Cat) | 99.52% | - |
| 船(Ship) | 99.52% | 低于 0.16% |
| 汽车(Automotive) | - | 低于 0.0005% |
| 鸟(Bird) | - | 低于 0.0005% |
| 狗(Dog) | - | 低于 0.0005% |
| 青蛙(Frog) | - | 低于 0.0005% |
从表中可以看出,飞机类别在专注特定类型飞机时获得了所有类别中最高的类别鲁棒性得分 99.91%,而猫和船类别获得了最低得分 99.52%。本次研究将统计误差容限设定为 5%,船类别超过此界限的概率最高,低于 0.16%;飞机、汽车、鸟、狗和青蛙类别误差可能性最低,均低于 0.0005%。
1.2 评估工具 gRoMA
gRoMA 工具用于概率性地测量深度神经网络(DNN)的全局类别鲁棒性,例如计算 pgcrϵ,δ 得分。这是朝着形式化 DNN 在安全关键应用中的安全性和可靠性迈出的一步。该工具的主要贡献在于开发了一种可扩展的工具,用于概率性地测量 DNN 的类别全局鲁棒性。
超级会员免费看
订阅专栏 解锁全文
1464

被折叠的 条评论
为什么被折叠?



