在探讨Sora技术及其与生成式AI的关系时,我们不得不提及Facebook首席科学家杨立昆的批评。他质疑Sora仅通过操纵像素来模拟世界,认为Sora无法真正理解世界。然而,这种观点忽略了Sora背后的技术深度,尤其是其对Transformer模型的应用。
首先,Sora并非单纯的像素操作。它利用了diffusion算法和DALLE的能力,通过生成一系列图像帧来构建视频。这一过程中,Transformer模型不仅处理文本token,还处理图像和视频的最小单元——patch。这意味着Sora在生成图像时,能够捕捉到元素间的互动关系,如雪的松软的雪和活泼的狗、物体在不同视角下的变化等,这些都是像素操作所无法实现的。
其次,杨立昆对生成式AI的批评似乎带有个人色彩。他曾是CNN和DNN领域的先驱,但随着Transformer模型的兴起,这些早期技术逐渐被边缘化。尽管杨立昆对Transformer模型持有保留态度,但Facebook的LAMA项目却是基于Transformer模型的,这表明在实际应