Method
这篇文章是Xiaomi AI发表的,同样是从减小网络参数和运算量出发(当然也保持了相当的准确性),在一个大的候选集中,通过EA算法寻找最优解。文章惊人的训练(imcomplete)了多达10000个神经网络,并从中选择了4个效果最优的模型,在综合考虑算法复杂程度和效果的情况下达到了state-of-the-art。
Comment
文章在模型上面并没有创新,但是利用了Tesla V100强大的计算能力后,也挖掘到了一些比较别致的内容:
- 并不是网络中的dense连接越多越好。
- 在SR中的block具有差异性可以取得更好的效果。
因为文章在筛选的过程中,是以不完全训练(imcomplete)的模型作为候选集的,所以文中有一个非常重要的假设:模型在不完全训练时的好坏能表征模型在完全训练时的好坏。其实这是一个非常强烈的假设。这样说的原因是模型在不完全训练时的好坏和其收敛速度有直接相关。收敛速度快的模型在不完全训练时当然会比收敛速度慢的模型更好,但是在完全训练的情况下,两个模型有可能性能差别不大,如下图所示。
但是,在承认这个比较基本的设定之后,该文章确实是为网络结构的探索做出了贡献,特别是上面所提到的两点发现。
声明
文中使用的图像来自互联网,并仅用于学术目的。在此感谢图像的提供者,如果提供者对改图像的使用存在异议,请联系作者:1300288499@qq.com。