【AIGC】百度:跨模态内容生成技术与应用

本文介绍了百度在跨模态内容生成领域的最新成果,包括文本生图像、文章转视频技术。重点讲述了ERNIE-ViLG2.0模型在文生图中的应用,以及视频创作系统如何理解文案和组织素材。同时,文章指出AIGC面临的易用性和可控性问题,并展望了其未来潜力。


内容来源:机器之心,百度文心一格总架构师肖欣延博士,《跨模态内容生成与技术与应用》的演讲。

内容生成概览

1. 图像生成

从图像生成角度来看,下图左边是 2020 年图像生的水平,是很有代表性的一个拍卖画作。到了 2022 年,技术已经相比之前强了很多。我们任意说一句话就能生成一张非常精致的图,不管是非常复杂的山水图,还是很精致很细腻的人物画像,都能做得很好了。我们可以感受到整个内容生成方向的进展是非常迅速的。
图像生成

2. 语言生成

除了图像生成,语言生成的进展也很快。直观来讲,以前更多的是在比较短的文本上生成得比较好。但到了今年,长文本的内容,比如故事生成、长文案生成,还有多轮聊天,文本生成都能做得很好。它能兼顾到前后的连贯性,甚至有时能保证逻辑上的一致性。
语言生成

3. 视频创作

更综合的就是视频创作。视频创作是让机器能够自动创作出一个完整的视频。视频会涉及到文案、画面和歌曲等很多元素。这是百度最近在万象大会上发布的,由 AI 度晓晓作词作曲演唱的 MV《启航星》,里面所有的画面都是用百度的文心一格画出来的。能够看到 AI 能根据歌词的变化,每个变化切换一个场景。
视频创作

2. AIGC介绍

整体上,前面讲到的这些都是智能内容生产,也就是今年大家常说的 AIGC。所谓 AIGC 就是用人工智能来进行内容生产,它的特点是有非常强大的内容生产力,大幅提升内容生产的质量和效率,将来也会极大地丰富大家的数字生活

这里给了一个简单的对比图,整个内容生产从专业的 PGC 到用户生产的 UGC,现在已经进入了 AIGC 的时代。相信 在 AIGC 的时代,整个内容生产的方式,还有内容消费的模式都会有极大的改变
AIGC

3. 跨模态内容生成

核心来讲,我们希望用文本的描述来生成视觉的内容。比如说一句话能生成一个图像,或者我们写一篇文章,能把文章自动转成视频。

3.1 文本生图像(文生图)

整体来讲,文生图在 2018 年或更早就有很多研究,我们能看到从 2020 年之后该方向进展很多。从应用角度来讲,很大的一个变化还是在 2022 年扩散模型的图像生成出现,使得整个跨模态生成有了一种跨越式的发展。
文生图
可以看到,2022 年的图像生成质量相比之前有非常大幅的提升,不管是从构图,还是细节刻画上。这种扩展生成模型如图所示,其实是依照原有图像,逐步增加高斯噪声,将图像转化为高斯分布。这样的处理序列是一张清晰的图片,逐渐变成噪声的过程,这是一个前向过程。而模型要学习的是把噪声去除掉,逐渐的恢复出原始照片

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

镰刀韭菜

看在我不断努力的份上,支持我吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值