2024年AI艺术创作领域发展大事件！

最新推荐文章于 2025-08-06 13:11:14 发布

原创最新推荐文章于 2025-08-06 13:11:14 发布 · 596 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

0 前言

第一期 🎉

AI发展之快令人难以置信，毕竟就在一年前，我们还在为生成正确数量的手指而苦恼 😂。

过去几年，开源模型和艺术工具迎来了关键性进展，AI 创意工具的可及性前所未有地提升，而我们可能才刚刚触及冰山一角。一起回顾 2024 年 AI & 艺术领域的重要里程碑、工具和突破，同时展望 2025 年的发展趋势。

1 2024 年重大发布

重点介绍在图像和视频生成等艺术创意领域的重大突破，特别是开源项目的进展。

2024 highlights

1.1 图像生成

自从 Stable Diffusion（稳定扩散）最初发布以来，开源图像生成模型在文本生成图像、图像编辑和可控图像生成等方面迅速发展。如今，开源模型在许多任务上的表现已能与闭源模型媲美，甚至超越。

2024 highlights

1.2 文本到图像生成

flux

2024 年，我们在扩散模型（Diffusion Models）的范式上迎来了巨大转变——从传统的 U-Net 结构转向 Diffusion Transformer（DiT），并且在目标函数上从扩散过程切换到了流匹配（Flow Matching）。

扩散模型与高斯流匹配在数学上是等价的，而流匹配提供了一种新的网络输出参数化方式，与以往的扩散模型有所不同。

📖 推荐阅读：如果你对流匹配及其与扩散模型的关系感兴趣，可以查看 Google DeepMind 的一篇精彩博客。

实战应用

Stable Diffusion 3：最早宣布采用 DiT 结构的模型
HunyuanDiT：首个真正开源的 DiT 结构模型
后续发布：AuraFlow、Flux.1、Stable Diffusion 3.5

在开源图像生成模型的发展历程中，Flux.1 的发布堪称一个里程碑。该模型在多个基准测试中超越了 Midjourney v6.0 和 DALL·E 3（高清版），成为新的开源标杆。

1.3 个性化与风格化

图像生成模型的进步也带来了个性化和可控生成技术的重大提升。

早在 2022 年 8 月，Textual Inversion（文本嵌入） 和 DreamBooth（梦幻训练） 让我们能够向文本生成图像模型引入新概念，极大拓展了其可能性。这些技术催生了一系列改进，如 LoRA（低秩自适应微调）等。

textual inversion - dreambooth

但微调模型的上限仍受基础模型质量的限制。Stable Diffusion XL（SDXL） 的出现改变了这一现状，使个性化和可控生成迈上新台阶。

instantid

2024 年的重大突破

零样本（Zero-shot）技术：仅需一张参考图像，无需训练，即可生成高质量肖像
- IP Adapter FaceID
- InstantID
- Photomaker
可控图像生成：结合边缘检测 / 深度 / 姿态约束的图像生成技术进一步提升，如：
- Instant Style
- B-LoRA

📌 2025 年展望：
尽管 DiT 结构的模型如 Flux 和 SD3.5 表现出色，但尚未完全超越 SDXL。这可能是因为我们对 DiT 结构中不同组件的语义作用仍缺乏深入理解。2025 年或将成为突破这一瓶颈的关键之年，届时我们或许能充分挖掘 DiT 的潜力，开启下一代图像生成模型的新篇章。