TLDR:主要讨论了从追求模型 SoTA 到揭示新现象的转变。通过几个例子,包括ACNet到RepVGG的发展,RIFE插帧、Film插帧,以及OpenAI的近期工作,阐述了这种转变的重要性。
知乎:黄哲威 hzwer
链接:https://zhuanlan.zhihu.com/p/14170281797
最近大家对于前沿工作的讨论,常常出现两极分化
比如 DiT,看到很多人说是灌水,研究生实验报告,Sora 以后有人又说“打脸”
比如说 OpenAI-o3,有答主说 “这是真正的智能爆炸,断崖式提升”,然后评论区说 “下次换个话术”
身边的故事,近期审了不少论文,发现大家对于宣称 SoTA 的工作越来越严苛了。往年那种先 SoTA 再故事的论文,眼看着被连环拒。作者喊着性能无敌,审稿人 borderline reject
想了一些东西,也对 论文写作指南 做了点补充
ACNet 到 RepVGG 的现象上升
聊个大佬朋友的例子, @丁霄汉 说 RepVGG 其实可以叫 ACNetv2
简单来说 ACNet 就是训练的时候三个卷积核,推理的时候合成一个
ACNet 在 ICCV19 投稿得分还是有正有负被捞起来,目前 800+ 引用说明后续影响力很不错
我个人觉得并不是当年的审稿人水平太差没有看出它的创新性,而是 ACNet 的创新性在丁博的后续工作中有广泛提升
因为 RepVGG 抽象了一个新概念“结构重参数化”,把 ACNet 中不好说清楚动机的设计方式变成 “构造一系列结构(一般用于训练),并将其参数等价转换为另一组参数