AI生成未来 | 2024年了cv还有什么可以卷的吗?听听大佬怎么说

本文来源公众号“AI生成未来,仅用于学术分享,侵权删,干货满满。

原文链接:2024年了cv还有什么可以卷的吗?听听大佬怎么说

作者:叫我Alonzo就好了(已授权转载) 编辑:AI生成未来

链接:https://www.zhihu.com/question/646965266/answer/3448977080?utm_campaign=shareopn&utm_medium=social&utm_psn=1757472533866393600&utm_source=wechat_sessio

2024年了cv还有什么可以卷的吗?

这里面cv感觉什么都做的差不多了,大模型卷不过,自动驾驶也是,diffusion,transform变体,因果,3d gaussian splatting这些还有水下去的空间嘛?

写在前面,吐槽一下题目,“CV 感觉什么都做的差不多了”应该不至于吧……VLMs 刚开始,下一波视频/3D/其他模态 + LLMs 绝对是有很多可做的工作的;自动驾驶这一块 3D 方面的视觉研究一直都还是蓝海,还值得深挖,况且 Text-to-3D 完全都还没启动;Mamba 去年年末还出来,所谓 Transformer 变体究竟会给 CV 社区带来怎样的研究思路,启发怎样新的研究问题都还是未知数……扯远了。

以下是正式回答,纯属 brainstorm,想到哪里写到哪里,欢迎大家在评论区补充交流。

从近两年 CV 研究的发展来看,CV 社区的研究大体可以从 arXiv 文章的反响、AI 巨头的动作来分析,毕竟要做一个好研究 PR 也已经成为很重要的一环了,一定程度上能提供一定的启发。个人觉得目前 CV 有下面这些点:

  1. Text-to-Video Generation。 具体参考去年年末 StabilityAI 的 Stable Video Diffusion、今年年初 OpenAI 的 Sora、以及在 Sora 放出之后紧随其后的 Open-Sora,这些动作都表明大家都很关注文生视频的动向,加上近两年各大顶会文生视频文章数量骤增的趋势来看,文生视频绝对是下一个热点。目前文生视频之所以不好做,主要还是因为(1)视频数据难以达到图像生成工作的级别(没有像 LAION 这样的大规模数据集);(2)缺少成熟的开源代码框架。 视频生成相关的顶会文章在我个人的 GitHub 仓库中都有收录,有需要的朋友欢迎移步参考:https://github.com/AlonzoLeeeoo(失效了?)

  2. Text-to-3D Generation。 具体参考今年 3 月初 StabilityAI 放出的 TripoSR 和 SV3D。文生 3D 绝对是下一个蓝海,个人理解是要比文生视频更难的任务,同样也面临着数据和代码框架的问题。视频好歹可以拿出单帧当作图像来处理,文生图的一些思路是可以借鉴的,但是 3D 则是一个完全不一样数据模态,相比文生视频的红海,文生 3D 应该会相对比较蓝海一点的一个研究方向。

  3. Text-to-Image Generation 旧范式下的更新优化。 具体可以参考今年年初 Sora 和 Stable Diffusion 3 不约而同采用的 Diffusion Transformer 架构,暗示着文生图社区的研究者已经开始在一些 diffusion models 的传统设定上面做文章。具体来说像 backbone model 的架构、压缩模型(VQGAN)、文本编码上的策略都还有很大的优化空间。另外,关于 diffusion distillation(加速采样)、high-resolution image synthesis(参考 Cogview 3)也是一些大家比较关注的方向

  • 关于 Sora 和 Stable Diffusion 3 的讲解,欢迎感兴趣的朋友参考我的往期文章:Diffusion Transformer 的讲解(https://zhuanlan.zhihu.com/p/684448966) 和 Stable Diffusion 3 的技术原理解读(https://zhuanlan.zhihu.com/p/685457842)

  • NLP 社区的大语言模型(LLM)也是当下研究的一大热点,关于 LLM 与 diffusion models 文本编码的讨论,欢迎感兴趣的朋友参考我的往期文章:When LLMs Meet Diffusion Models:浅谈LLMs与Text-to-Image Diffusion Models中的文本编码(https://zhuanlan.zhihu.com/p/687482566)

  • 关于 Cogview 3 的解读,欢迎感兴趣的朋友参考我的往期文章:从Relay Diffusion到Cogview 3:浅谈Noise Scheduling与扩散模型(https://zhuanlan.zhihu.com/p/686899891)

  • 文生图相关的顶会文章在我的个人 GitHub 仓库中都有收录,有需要的朋友欢迎移步参考:https://github.com/AlonzoLeeeoo

  1. Vision-Language Models 的模态拓展。 目前 VLMs 在“图像-文本”的范式上已经具备初步雏形了,参考今年 Sora 带来的风口,下一步将 VLMs 拓展到“视频-文本”,甚至是语音、3D 等其他更广范围的模态信息都是可做的,也具有研究价值,其中像 Video Captioning、Understanding 等一系列的视频模态的理解任务都还有待研究,与图像相比都还有较大差距,其他模态更是自然不用多说。

  2. RLHF 在 CV 任务上的应用。 RLHF 是在 LLM 火了之后被带起来的,被大量研究证明强化学习有助于对齐人类偏好,本质上是在帮助模型生成更加“真实”的结果,但是在 CV 的各个任务上相关研究却所见甚少。个人认为其实对于 CV 社区肯定是有一定启发的,既然能够引导模型对齐特定的“偏好”,对于“生成式”的任务理论上应该会有帮助。 然而文生图社区比较知名的相关工作目前仅有 DDPO,估计难点在于 RLHF 在直接应用到 CV 任务上的时候是存在 gap 的,这里就需要进一步设计去优化。

  3. Agent/Robotics 相关的视觉方案。 具体参考年初 OpenAI 放出来的 Figure 01。Figure 01 的 demo 证明了 LLM 在做 planning 这件事上已经取得了初步的突破,而视觉作为具身智能中不可或缺的一环,势必会带动一系列的相关研究。相关的往期回答:如何看待与Open AI合作的最新机器人成果Figure 01?

  4. 新架构 Mamba 驱动下的相关研究。 具体参考年初的 DiS(Diffusion + Mamba) 和 Mamba 目前在一系列下游任务上的变式,这里就不再一一列举。Mamba 在去年年底 12 月份挂上 arXiv 的,同样在今年年初就有诸多 CV 相关的变式研究挂出来了,可想而知大家对于 Mamba 的感兴趣程度。据说 Mamba 比 Transformer 更擅长长序列建模,理论上来说 Transformer 刷过的 tasks 都可以用 Mamba 再刷一遍(虽然说这么做没什么 novelty)。

  5. 统一模态的 feature learning。 Feature learning 这件事其实一直都是大家比较关注的,从 ResNet 时代一直到年初的 Vision Mamba,每每有新的模型范式出来做的第一件事就是 feature learning,这是因为 feature learning 的好坏直接事关一系列下游任务的性能指标,属于是 CV 的核心研究了。然而在多模态大背景的驱动下,模态统一的范式想必是一个必然趋势。个人比较看好的一个工作是 Meta 做的 ImageBind,发表于 CVPR 2023,做的是用同一个的隐空间将多种模态信息统一,结合前面说到的 VLMs 的发展趋势,这类方法应该是有一定的发挥空间的。

THE END!

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值