知识蒸馏性能表征与糖尿病视网膜病变检测研究
1. 知识蒸馏性能表征
1.1 Resnet 到 VGG 的知识蒸馏结果
在知识蒸馏中,教师网络应该具备更多可用于训练学生网络的特征。由于 Resnet 架构规模小于 VGG 架构,因此在以 Resnet 为教师网络的情况下,我们对其训练结果进行了观察。
观察以 Resnet 架构作为教师网络时的整体行为,整体训练准确率如图 5 所示。与其他知识蒸馏(KD)组合一样,我们看到以 Resnet - 8 作为教师网络时结果具有一致性,如图 5 上部所示;而 Resnet - 20 作为教师网络的结果则存在不一致性,有许多独立的表现。另外,Resnet - 44 在这种情况下表现极差但较为一致,如图 5 中密集的线条所示。最后,只有在较小的 Resnet 教师网络情况下才会出现先急剧上升然后趋于平稳的情况。当使用 Resnet - 44 作为教师网络时,未观察到权重衰减现象,这进一步证明即使持续有效的权重衰减也无法有意义地改善其糟糕的性能。
以下是 Resnet 到 VGG 的知识蒸馏结果表:
| 教师网络 | 学生网络 | 平均准确率 | 最佳准确率 | 标准差 | 准确率差值(教师) | 准确率差值(基线) |
| — | — | — | — | — | — | — |
| Resnet - 8 | VGG - 8 | 98.14% | 98.36% | 0.1378 | 0.272% | -0.478% |
| Resnet - 8 | VGG - 13 | 98.47% | 98.68% | 0.1227 | 0.602% | -0.178% |
| Resne
超级会员免费看
订阅专栏 解锁全文
832

被折叠的 条评论
为什么被折叠?



