2024年AI艺术创作领域发展大事件!

0 前言

第一期 🎉

AI发展之快令人难以置信,毕竟就在一年前,我们还在为生成正确数量的手指而苦恼 😂。

过去几年,开源模型和艺术工具迎来了关键性进展,AI 创意工具的可及性前所未有地提升,而我们可能才刚刚触及冰山一角。一起回顾 2024 年 AI & 艺术领域的重要里程碑、工具和突破,同时展望 2025 年的发展趋势。

1 2024 年重大发布

重点介绍在图像和视频生成等艺术创意领域的重大突破,特别是开源项目的进展。

2024 highlights

1.1 图像生成

自从 Stable Diffusion(稳定扩散)最初发布以来,开源图像生成模型在文本生成图像、图像编辑和可控图像生成等方面迅速发展。如今,开源模型在许多任务上的表现已能与闭源模型媲美,甚至超越。

2024 highlights

1.2 文本到图像生成

flux

2024 年,我们在扩散模型(Diffusion Models)的范式上迎来了巨大转变——从传统的 U-Net 结构转向 Diffusion Transformer(DiT),并且在目标函数上从扩散过程切换到了流匹配(Flow Matching)

扩散模型与高斯流匹配在数学上是等价的,而流匹配提供了一种新的网络输出参数化方式,与以往的扩散模型有所不同。

📖 推荐阅读:如果你对流匹配及其与扩散模型的关系感兴趣,可以查看 Google DeepMind 的一篇精彩博客。

实战应用
  • Stable Diffusion 3:最早宣布采用 DiT 结构的模型
  • HunyuanDiT:首个真正开源的 DiT 结构模型
  • 后续发布:AuraFlow、Flux.1、Stable Diffusion 3.5

在开源图像生成模型的发展历程中,Flux.1 的发布堪称一个里程碑。该模型在多个基准测试中超越了 Midjourney v6.0 和 DALL·E 3(高清版),成为新的开源标杆。

1.3 个性化与风格化

图像生成模型的进步也带来了个性化和可控生成技术的重大提升。

早在 2022 年 8 月,Textual Inversion(文本嵌入) 和 DreamBooth(梦幻训练) 让我们能够向文本生成图像模型引入新概念,极大拓展了其可能性。这些技术催生了一系列改进,如 LoRA(低秩自适应微调)等。

textual inversion - dreambooth

但微调模型的上限仍受基础模型质量的限制。Stable Diffusion XL(SDXL) 的出现改变了这一现状,使个性化和可控生成迈上新台阶。

instantid

2024 年的重大突破
  • 零样本(Zero-shot)技术:仅需一张参考图像,无需训练,即可生成高质量肖像
    • IP Adapter FaceID
    • InstantID
    • Photomaker
  • 可控图像生成:结合边缘检测 / 深度 / 姿态约束的图像生成技术进一步提升,如:
    • Instant Style
    • B-LoRA

📌 2025 年展望
尽管 DiT 结构的模型如 Flux 和 SD3.5 表现出色,但尚未完全超越 SDXL。这可能是因为我们对 DiT 结构中不同组件的语义作用仍缺乏深入理解。2025 年或将成为突破这一瓶颈的关键之年,届时我们或许能充分挖掘 DiT 的潜力,开启下一代图像生成模型的新篇章。


1.4 视频生成

相比图像生成,AI 视频生成仍有很长的路要走,但相较一年前,进步已经十分显著。

尽管我们更关注开源项目,但不得不承认,OpenAI 的 Sora 极大地改变了人们对 AI 视频生成能力的期待。正如 fofr 在《AI 视频正在迎来它的 Stable Diffusion 时刻》中提到的那样,Sora 让所有人意识到了 AI 生成视频的真正可能性。

开源视频生成模型的崛起
  • CogVideoX
  • Mochi
  • Allegro
  • LTX Video
  • HunyuanVideo

AI 视频生成面临的主要挑战包括:
✅ 运动质量 ✅ 连贯性 ✅ 一致性 ✅ 计算资源需求

尽管目前大多数开源视频模型仍然难以在普通硬件上运行,但 2024 年的进展令人瞩目,预计 2025 年将迎来更大的突破

1.5 音频生成

过去一年,AI 音频生成从简单音效发展到完整带歌词的歌曲,进步显著。但由于音频信号的复杂性及训练数据的稀缺,挑战依然存在。

2024 年开源音频工具
  • OuteTTS & IndicParlerTTS:文本转语音(TTS)
  • Whisper Large v3 Turbo:语音识别(ASR)

2025 年刚开始,音频领域就已迎来多项突破:
🎵 Kokoro、LLasa TTS、OuteTTS 0.3(TTS)
🎶 JASCO、YuE(音乐生成)

2 2024年表现亮眼的创意工具

开源的魅力在于社区的共同探索、改进和创新。2024 年,许多优秀的创意 AI 工具应运而生,其中包括:

  • Flux 微调工具(由 ostris 开发)
  • Face to All(结合 InstantID 和 SDXL LoRA)
  • Flux 风格塑形(光学错觉与风格迁移)
  • Diffusers Outpainting(无缝扩展图像)
  • Live Portrait & Face Poke(让静态人像动起来)
  • TRELLIS(高质量 3D 资产生成模型)
  • IC-Light(智能光照调整工具)

3 2025 年 AI & 艺术趋势展望

🔮 2025 年,开源将在视频、动态内容和音频模型方面迎头赶上,迎来更多跨模态的可能性。随着计算优化和量化技术的发展,我们可以期待开源视频模型的巨大飞跃。

4 强势开局——2025 年 1 月 25 日的开源发布

  • YuE(全曲 AI 音乐生成模型,媲美闭源模型)
  • Hunyuan 3D-2、SPAR3D、DiffSplat(3D 生成新星)
  • Lumina-Image 2.0(2B 参数图像生成模型,挑战 Flux.1)
  • ComfyUI-to-Gradio 教程(将 ComfyUI 工作流转换为 Gradio 应用)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值