本文来源公众号“AI生成未来”,仅用于学术分享,侵权删,干货满满。
原文链接:2024年了cv还有什么可以卷的吗?听听大佬怎么说
作者:叫我Alonzo就好了(已授权转载) 编辑:AI生成未来
链接:https://www.zhihu.com/question/646965266/answer/3448977080?utm_campaign=shareopn&utm_medium=social&utm_psn=1757472533866393600&utm_source=wechat_sessio
问
2024年了cv还有什么可以卷的吗?
这里面cv感觉什么都做的差不多了,大模型卷不过,自动驾驶也是,diffusion,transform变体,因果,3d gaussian splatting这些还有水下去的空间嘛?
答
写在前面,吐槽一下题目,“CV 感觉什么都做的差不多了”应该不至于吧……VLMs 刚开始,下一波视频/3D/其他模态 + LLMs 绝对是有很多可做的工作的;自动驾驶这一块 3D 方面的视觉研究一直都还是蓝海,还值得深挖,况且 Text-to-3D 完全都还没启动;Mamba 去年年末还出来,所谓 Transformer 变体究竟会给 CV 社区带来怎样的研究思路,启发怎样新的研究问题都还是未知数……扯远了。
以下是正式回答,纯属 brainstorm,想到哪里写到哪里,欢迎大家在评论区补充交流。
从近两年 CV 研究的发展来看,CV 社区的研究大体可以从 arXiv 文章的反响、AI 巨头的动作来分析,毕竟要做一个好研究 PR 也已经成为很重要的一环了,一定程度上能提供一定的启发。个人觉得目前 CV 有下面这些点:
-
Text-to-Video Generation。 具体参考去年年末 StabilityAI 的 Stable Video Diffusion、今年年初 OpenAI 的 Sora、以及在 Sora 放出之后紧随其后的 Open-Sora,这些动作都表明大家都很关注文生视频的动向,加上近两年各大顶会文生视频文章数量骤增的趋势来看,文生视频绝对是下一个热点。目前文生视频之所以不好做,主要还是因为(1)视频数据难以达到图像生成工作的级别(没有像 LAION 这样的大规模数据集);(2)缺少成熟的开源代码框架。 视频生成相关的顶会文章在我个人的 GitHub 仓库中都有收录,有需要的朋友欢迎移步参考:https://github.com/AlonzoLeeeoo(失效了?)
-
Text-to-3D Generation。 具体参考今年 3 月初 StabilityAI 放出的 TripoSR 和 SV3D。文生 3D 绝对是下一个蓝海,个人理解是要比文生视频更难的任务,同样也面临着数据和代码框架的问题。视频好歹可以拿出单帧当作图像来处理,文生图的一些思路是可以借鉴的,但是 3D 则是一个完全不一样数据模态,相比文生视频的红海,文生 3D 应该会相对比较蓝海一点的一个研究方向。
-
Text-to-Image Generation 旧范式下的更新优化。 具体可以参考今年年初 Sora 和 Stable Diffusion 3 不约而同采用的 Diffusion Transformer 架构,暗示着文生图社区的研究者已经开始在一些 diffusion models 的传统设定上面做文章。具体来说像 backbone model 的架构、压缩模型(VQGAN)、文本编码上的策略都还有很大的优化空间。另外,关于 diffusion distillation(加速采样)、high-resolution image synthesis(参考 Cogview 3)也是一些大家比较关注的方向。
-
关于 Sora 和 Stable Diffusion 3 的讲解,欢迎感兴趣的朋友参考我的往期文章:Diffusion Transformer 的讲解(https://zhuanlan.zhihu.com/p/684448966) 和 Stable Diffusion 3 的技术原理解读(https://zhuanlan.zhihu.com/p/685457842)
-
NLP 社区的大语言模型(LLM)也是当下研究的一大热点,关于 LLM 与 diffusion models 文本编码的讨论,欢迎感兴趣的朋友参考我的往期文章:When LLMs Meet Diffusion Models:浅谈LLMs与Text-to-Image Diffusion Models中的文本编码(https://zhuanlan.zhihu.com/p/687482566)
-
关于 Cogview 3 的解读,欢迎感兴趣的朋友参考我的往期文章:从Relay Diffusion到Cogview 3:浅谈Noise Scheduling与扩散模型(https://zhuanlan.zhihu.com/p/686899891)
-
文生图相关的顶会文章在我的个人 GitHub 仓库中都有收录,有需要的朋友欢迎移步参考:https://github.com/AlonzoLeeeoo
-
Vision-Language Models 的模态拓展。 目前 VLMs 在“图像-文本”的范式上已经具备初步雏形了,参考今年 Sora 带来的风口,下一步将 VLMs 拓展到“视频-文本”,甚至是语音、3D 等其他更广范围的模态信息都是可做的,也具有研究价值,其中像 Video Captioning、Understanding 等一系列的视频模态的理解任务都还有待研究,与图像相比都还有较大差距,其他模态更是自然不用多说。
-
RLHF 在 CV 任务上的应用。 RLHF 是在 LLM 火了之后被带起来的,被大量研究证明强化学习有助于对齐人类偏好,本质上是在帮助模型生成更加“真实”的结果,但是在 CV 的各个任务上相关研究却所见甚少。个人认为其实对于 CV 社区肯定是有一定启发的,既然能够引导模型对齐特定的“偏好”,对于“生成式”的任务理论上应该会有帮助。 然而文生图社区比较知名的相关工作目前仅有 DDPO,估计难点在于 RLHF 在直接应用到 CV 任务上的时候是存在 gap 的,这里就需要进一步设计去优化。
-
Agent/Robotics 相关的视觉方案。 具体参考年初 OpenAI 放出来的 Figure 01。Figure 01 的 demo 证明了 LLM 在做 planning 这件事上已经取得了初步的突破,而视觉作为具身智能中不可或缺的一环,势必会带动一系列的相关研究。相关的往期回答:如何看待与Open AI合作的最新机器人成果Figure 01?
-
新架构 Mamba 驱动下的相关研究。 具体参考年初的 DiS(Diffusion + Mamba) 和 Mamba 目前在一系列下游任务上的变式,这里就不再一一列举。Mamba 在去年年底 12 月份挂上 arXiv 的,同样在今年年初就有诸多 CV 相关的变式研究挂出来了,可想而知大家对于 Mamba 的感兴趣程度。据说 Mamba 比 Transformer 更擅长长序列建模,理论上来说 Transformer 刷过的 tasks 都可以用 Mamba 再刷一遍(虽然说这么做没什么 novelty)。
-
统一模态的 feature learning。 Feature learning 这件事其实一直都是大家比较关注的,从 ResNet 时代一直到年初的 Vision Mamba,每每有新的模型范式出来做的第一件事就是 feature learning,这是因为 feature learning 的好坏直接事关一系列下游任务的性能指标,属于是 CV 的核心研究了。然而在多模态大背景的驱动下,模态统一的范式想必是一个必然趋势。个人比较看好的一个工作是 Meta 做的 ImageBind,发表于 CVPR 2023,做的是用同一个的隐空间将多种模态信息统一,结合前面说到的 VLMs 的发展趋势,这类方法应该是有一定的发挥空间的。
THE END!
文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。