Sora背后团队:应届博士带队,00后入列,还专门招了艺术生

作者 | 关注前沿科技  编辑 | 量子位

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心技术交流群

本文只做学术分享,如有侵权,联系删文

现在世界上最受关注的技术团队是哪一支?

Sora团队,已经来到聚光灯中心。

不仅项目负责人评论区被挤爆,成了𝕏最f45047c51134c6c62bff839ef6dbffaa.png“景点”。

e8ce299930ca88e22d9c9d29ea700286.png

天才成员们的履历,也正在持续引爆关注。

116b695a05ac67497021a9f0f4c0484a.png
来自微博博主@木遥

大家伙发现,这支团队挺年轻:两位负责人都是在去年(2023年)刚刚博士毕业,团队里甚至还有00后选手……

8a723ed978e24f509ba7702f86bdf6f0.png

763a1fc398669c8b4d86269b7a12c0d0.pngf101909cb141dc9cada136f58dce8cf0.png也是真的牛:

Tim Brooks,DALL-E 3作者之一,GitHub 5.7k4441d46bbf3ac3bcdc8d86e008685c2b.png️项目InstructPix2Pix作者,2021-2022年在英伟达实习时,就是视频生成研究的项目负责人。

William (Bill) Peebles,和谢赛宁合作,搞出了Sora的技术基础之一DiT(扩散Transformer)。论文还曾入围CVPR 2022最佳论文候选。

……

这支团队到底什么来头,咱们今天一起仔细聊聊。

应届博士带队

包括Tim和Bill在内,Sora的主要负责人一共有三名(以下排名不分先后)。

Tim Brooks,也是DALL-E 3的作者,去年1月刚从加州大学伯克利分校博士毕业。

cb3d8335273c4ec6590cf30ef07d1cfd.png

Tim本科就读于卡内基梅隆大学,主修逻辑与计算,辅修计算机科学,其间在Facebook软件工程部门实习了四个月。

2017年,本科毕业的Tim先到Google工作了近两年,在Pixel手机部门中研究AI相机,之后到了伯克利AI实验室攻读博士。

在伯克利读博期间,Tim的主要研究方向就是图片与视频生成,他还在英伟达实习并主导了一项关于视频生成的研究。

回到校园后,Tim与导师Alexei Efros教授和同组博士后Aleksander Holynski(现在谷歌)一起研制了AI图片编辑工具InstructPix2Pix,并入选CVPR 2023 Highlight。

0c3953011a6e13b5a97ff0d30a451845.png

去年一月,Tim顺利毕业并取得了博士学位,转而加入OpenAI,并相继参与了DALL-E 3和Sora的工作。

值得一提的是,Tim不仅在专业领域拥有高超的技术水平,还是个多才多艺的人。

据Tim自己介绍,他还喜欢摄影和音乐,高中时他拍摄的照片获得过National Geographic颁发的奖项,本人到过百老汇演出,还获得过B-box国际奖项……

953ea9a409c938d001d7c4a1cd85effc.png

而与Tim师出同门、晚毕业4个月的William Peebles,也是Sora的另一名负责人。

(Peebles在𝕏上用昵称Bill,在Linkedin上及论文署名时用大名William,下文一律用Bill指代。)

18b72cdac52d138a40524b21f5e892e8.png

Bill本科就读于MIT,主修计算机科学,参加了GAN和text2video的研究,还在英伟达深度学习与自动驾驶团队实习,研究计算机视觉。

毕业后正式开始读博之前,他还参加了Adobe的暑期实习,研究的依然是GAN,该项目和(时任)卡内基梅隆大学华人学者朱俊彦(也是Efros教授学生,现在在MIT)组有合作,并成为CVPR 2022最佳论文候选。

aec8d3dc5df0f07b537e258ae2ef0fed.png

之后,学期开始,Bill到了伯克利Efros教授课题组攻读博士,研究成果多次入选SIGGRAPH、ICCV、CVPR等学术会议。

2022年5月,Bill到Meta进行了为期半年的实习,和谢赛宁(Bill开始实习时还未离开Meta)合作发表了DiT模型,首次将Transformer与扩散模型结合到了一起。

该成果被ICCV 2023录用为Oral论文。值得一提的是,OpenAI此次发布的Sora,被认为正是基于DiT构建的。

2576f49b060b2c00b2f33d9e66db735d.png

去年5月,Bill也从伯克利毕业,并入职OpenAI。

除了这两位去年加入的研究者,Sora团队的另一位负责人Aditya Ramesh则是OpenAI的“老人”。

390a94e0e1c80b4bbb4c64366da50cd8.png

Aditya是DALL-E的创造者,主导了三代DALL-E的研究,三个版本的论文当中他都是共同一作。

cdd27c75e30288449f831e1f4241c5c5.png

而这样一位主导三代DALL-E,如今又领导Sora团队的大神,却只有本科学历。

据LeCun介绍,Aditya本科就读于纽约大学,并在他的实验室参与过一些项目。

b6518580ae48821342dc0f54c3b623ae.png

其间,Aditya就已经在研究生成式模型,并和LeCun共同发表论文。

5e91630c21f6411b2c8d01201c4c57bf.png

毕业之后,Aditya本想继续深造,但在OpenAI的暑期实习中被留了下来,成为了正式研究人员。

00后已加入

Sora团队的本科生,还不止Aditya Ramesh一位。

前文提到,这支团队中有一位“00后”Will DePue,就是2022年才刚从密西根大学计算机系本科毕业的。

12bf20d4a00c31824dd2b7b5632100c3.png

这位小哥大四的时候创业搞了个市场咨询公司DeepResearch,这家公司后来被Commsor收购。

2023年7月,小哥加入OpenAI。根据他的领英信息,他是在今年1月才刚刚加入Sora项目组的。

另外,David Schnurr和Joe Taylor也都没有博士学位。前者毕业于加州大学圣塔芭芭拉分校,后者毕业于美国旧金山艺术大学。

而正如Aditya Ramesh自己所说,Sora团队的不少成员都是DALL-E 3的作者。

b0371e265f656de08f8583066febd9de.png

包括两位华人Li Jing和Yufei Guo。

Li Jing是DALL-E 3的共同一作,2014年本科毕业于北京大学物理系,2019年获得MIT物理学博士学位。在Meta做了2年多博士后之后,Li Jing于2022年加入OpenAI。

华人作者中还有Ricky Wang,今年一月刚刚从Meta/Instagram跳槽到OpenAI,另外两位Yufei Guo、Clarence Ng没有太多公开资料。

新跳槽来的还有Conner Holmes,他在微软工作时以外援形式参与了DALL·E 3的推理优化工作,后来干脆加入OpenAI了。

最后,来看一眼完整作者名单:

1161633edee08e661c00506bcee03878.png

从团队的组建情况和研究基础来看,Sora应该是OpenAI近半年来的最新成果,而非网传“早已有之但憋着不发”。

不过,Sora炸场,顶级人才又持续星聚,还是惊得众人开始重新考量OpenAI的技术领先性。

就在今天,作者释出的Sora新作,连“同一场景”下的多机位视频都整出来了。

36ae3bd51417a17bee0c48a70c8878c2.gif

网友们的心情be like:

70ff9f5749578bc007ce0d4e9242aaaf.png

现在,是视频生成,下一个又会是什么?

参考链接:
[1]https://www.wpeebles.com/
[2]https://www.timothybrooks.com/about/
[3]http://adityaramesh.com/about.html

—  —

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

90ce8266041e14d99cc54c4a0202a3fd.png 视频官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

近2400人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

1ec16feb05f4372d42dbb7330493f208.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

686d5707a3b59240fc3f93165b1cbc28.jpeg

④【自动驾驶之心】平台矩阵,欢迎联系我们!

a9f7fe0786bfda70e9a785e3ec897baa.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值