【AIGC】百度：跨模态内容生成技术与应用

最新推荐文章于 2025-08-02 00:00:00 发布

原创

最新推荐文章于 2025-08-02 00:00:00 发布 · 2.2k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#百度 #AIGC #人工智能 #跨模态生成 #文心一格

本文介绍了百度在跨模态内容生成领域的最新成果，包括文本生图像、文章转视频技术。重点讲述了ERNIE-ViLG2.0模型在文生图中的应用，以及视频创作系统如何理解文案和组织素材。同时，文章指出AIGC面临的易用性和可控性问题，并展望了其未来潜力。

百度：跨模态内容生成技术与应用

内容生成概览
2. AIGC介绍
3. 跨模态内容生成
4. 总结

内容来源：机器之心，百度文心一格总架构师肖欣延博士，《跨模态内容生成与技术与应用》的演讲。

内容生成概览

1. 图像生成

从图像生成角度来看，下图左边是 2020 年图像生的水平，是很有代表性的一个拍卖画作。到了 2022 年，技术已经相比之前强了很多。我们任意说一句话就能生成一张非常精致的图，不管是非常复杂的山水图，还是很精致很细腻的人物画像，都能做得很好了。我们可以感受到整个内容生成方向的进展是非常迅速的。
图像生成

2. 语言生成

除了图像生成，语言生成的进展也很快。直观来讲，以前更多的是在比较短的文本上生成得比较好。但到了今年，长文本的内容，比如故事生成、长文案生成，还有多轮聊天，文本生成都能做得很好。它能兼顾到前后的连贯性，甚至有时能保证逻辑上的一致性。
语言生成

3. 视频创作

更综合的就是视频创作。视频创作是让机器能够自动创作出一个完整的视频。视频会涉及到文案、画面和歌曲等很多元素。这是百度最近在万象大会上发布的，由 AI 度晓晓作词作曲演唱的 MV《启航星》，里面所有的画面都是用百度的文心一格画出来的。能够看到 AI 能根据歌词的变化，每个变化切换一个场景。
视频创作

2. AIGC介绍

整体上，前面讲到的这些都是智能内容生产，也就是今年大家常说的 AIGC。所谓 AIGC 就是用人工智能来进行内容生产，它的特点是有非常强大的内容生产力，大幅提升内容生产的质量和效率，将来也会极大地丰富大家的数字生活。

这里给了一个简单的对比图，整个内容生产从专业的 PGC 到用户生产的 UGC，现在已经进入了 AIGC 的时代。相信 在 AIGC 的时代，整个内容生产的方式，还有内容消费的模式都会有极大的改变。
AIGC

3. 跨模态内容生成

核心来讲，我们希望用文本的描述来生成视觉的内容。比如说一句话能生成一个图像，或者我们写一篇文章，能把文章自动转成视频。

3.1 文本生图像（文生图）

整体来讲，文生图在 2018 年或更早就有很多研究，我们能看到从 2020 年之后该方向进展很多。从应用角度来讲，很大的一个变化还是在 2022 年扩散模型的图像生成出现，使得整个跨模态生成有了一种跨越式的发展。

可以看到，2022 年的图像生成质量相比之前有非常大幅的提升，不管是从构图，还是细节刻画上。这种扩展生成模型如图所示，其实是依照原有图像，逐步增加高斯噪声，将图像转化为高斯分布。这样的处理序列是一张清晰的图片，逐渐变成噪声的过程，这是一个前向过程。而模型要学习的是把噪声去除掉，逐渐的恢复出原始照片。