图像生成技术演进史：从 GAN 到 Diffusion 再到 Sora

最新推荐文章于 2025-08-06 13:02:48 发布

原创最新推荐文章于 2025-08-06 13:02:48 发布 · 1.3k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#生成对抗网络 #人工智能 #计算机视觉

AI 专栏收录该内容

164 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

一部 AI 图像生成技术简史，也是一部 AI 想象力的进化史。从模糊的人脸到电影级的视频，生成模型的每一次跃进都在刷新“人机创作”的边界。

🪞 第 1 阶段：GAN 时代 —— 让 AI 学会“想象一张图”

🔬 GAN（Generative Adversarial Network）是怎么工作的？

由 Ian Goodfellow 于 2014 年提出，GAN 是一种对抗式学习结构，核心由两个神经网络组成：

生成器（Generator）：输入随机噪声，尝试生成“像真的”图像
判别器（Discriminator）：判断图像是真图还是伪图

两者在训练中对抗式博弈：生成器努力“骗过”判别器，判别器则努力识破假图，最终生成器学会输出“以假乱真”的图像。

graph LR
Z[随机噪声] --> G[生成器G]
G --> Fake[生成图像]
Real[真实图像] --> D[判别器D]
Fake --> D
D --> Output[真 or 假]

🌟 代表模型

DCGAN：最早可视化稳定训练的 GAN
StyleGAN（NVIDIA）：首次在脸部生成上逼近真实，控制力强（发型、表情、年龄）
BigGAN（DeepMind）：支持多类别图像生成，高分辨率图像逼真度高

⚠️ GAN 的瓶颈

训练极不稳定，容易崩、容易模式崩溃（只会生成一个样本）
缺少覆盖性与多样性，容易陷入“看起来像，但千篇一律”的陷阱
难以推理、难以控制，无法像语言模型一样接受指令生成

💨 第 2 阶段：扩散模型时代 —— 让 AI 学会“想象细节”

🌀 Diffusion Model（扩散模型）是什么？

Diffusion 模型是一种基于噪声学习图像反向生成过程的模型。训练阶段，它学习如何一步步将一张图像“加噪声”，最终变成高斯噪声；生成阶段，则学会如何从纯噪声“逆过程”一步步还原图像。

这个过程类似“图像的呼吸” —— 一张图的来与去，全在噪声控制中。

graph LR
Clean[清晰图像] --> Noise1 --> Noise2 --> NoiseN[高斯噪声]
NoiseN --> Gen1 --> Gen2 --> Output[最终图像]

✨ 核心优点：

生成质量高、细节丰富，尤其擅长复杂结构（如风景、建筑、插画）
易于加入条件（文本、图像），可控性强
训练稳定性好，不像 GAN 那样“对抗崩溃”

🔥 代表模型：

模型名称	发布者	特点
DDPM	Google	经典扩散结构
GLIDE	OpenAI	支持文本条件，生成质量优秀
Stable Diffusion	CompVis	全开源，支持本地部署，社区火爆
Imagen	Google	文生图质量极高，支持分辨率级联
DALL·E 2	OpenAI	具备图文理解与再编辑能力

📦 Stable Diffusion 为何划时代？

开源，人人可用（只需消费级显卡）
支持“文本 + 图像 + 蒙版”多种输入组合
可微调、可插件化，催生出 HuggingFace、Civitai 等生态

🎬 第 3 阶段：Sora 时代 —— 让 AI 看见、联想与“拍一部片”

🧠 什么是 Sora？

Sora 是 OpenAI 于 2024 年发布的视频生成模型，能根据文本生成电影级别的动态视频。与 Diffusion 相比，它不仅能生图、还能“造时空”。

输入：一个文本描述
输出：一段持续 60 秒、光影自然、逻辑连续的视频

🧬 Sora 的技术亮点

使用 空间 + 时间扩散建模，生成的每一帧不仅“好看”，还和前后逻辑一致
对物理世界理解惊人（物体不穿模、运动流畅、镜头感十足）
可生成高度复杂的场景变化（比如“暴雪中的一位女子走过桥”）

Prompt: “A photorealistic scene of a robot walking through Tokyo at night in the rain”
↓
Output: 高质量视频，配合镜头推进、光影变化、人物移动

🔍 为什么 Sora 是一个“范式飞跃”？

从静态图 → 动态时空：AI 终于迈入时间建模
从文本生成 → 多模态导演：支持文本 + 音轨 + 摄像头运动描述
从图像生成 → 场景模拟器：可生成多个视角、多个角色互动场景

🔄 技术演进路线图：一图看清 AI 生图技术的变迁

graph LR
A[2014 - GAN] --> B[2018 - StyleGAN]
B --> C[2021 - Diffusion Models]
C --> D[2022 - Stable Diffusion]
D --> E[2023 - DALL·E 3 / Imagen 2]
E --> F[2024 - Sora / Pika / Runway Gen2]

从对抗博弈 → 概率建模 → 模态融合
从像素合成 → 意图生成 → 世界模拟

🧰 开发者该如何拥抱图像生成时代？

应用目标	推荐技术栈
生成插画	Stable Diffusion + Civitai 模型
创作 AI 动画	Pika Labs / Runway / Sora API（未来）
构建图文生成系统	Diffusers + Gradio 或 Streamlit
做 AI 写实建模	StyleGAN / ControlNet / DreamBooth
多模态智能体	图像生成 + 图像问答（如 LLaVA）+ RAG