李宏毅《生成式人工智能导论》 | 第15讲-第18讲:生成的策略-影像有关的生成式AI

生成策略

生成式AI:让机器产生复杂有结构的物件,比如文字、影响、声音等。

  • 文字:一句话由token组成
  • 影像:由一个一个像素构成,每个像素有多少颜色取决于BPP(Bit per Pixel)。

8BPP:256色,16BPP:65536色,24BPP:1670万色

  • 声音:由取样点构成,每个点有多少数值取决于取样解析度

16KHZ取样率每一秒有16000个点

生成式人工智能的本质:给定条件后,生成式AI把基本单位用正确的排序组合起来

AR与NAR的总结

目前的做法是两种方法结合。

生成策略:Autoregressive Generation AR

文字接龙使用的生成策略是Autoregressive Generation,其实影像也可以进行像素接龙,声音也可以进行取样点接龙。但实际操作中,影像生成与语音生成不是采用接龙的方式。

Autoregressive Generation本质上的限制

每次产生一个基本单位时,只能按部就班生成

假设需要生成1024x1024解析度的图片,图片有100w个像素,那么需要做100w次像素接龙,生成成本和时间都太多了。生成语音采用这种策略也存在同样的问题。

生成策略:Non-autoregressive Generation NAR

NAR:不按部就班,一次同时生成所有基本单位,图像生成主流采用的方法。

文字也可以用Non-autoregressive Generation的方式,思路是确定生成的基本单位数量。

方式1:给一个输入,让语言模型预测要自己回答的答案token数量。 - 影响生成的大小是固定的,所以就不需要实现预测。

方式2:生成固定长度的答案,如果出现END这个token,那之后的答案丢掉就可以了。


Non-Autoregressive Generation的质量存在问题

生成式AI往往需要自行脑补,给定同样的条件也会有很多可能的输出。

假设生成一个图片,每个位置的生成是独立,当生成不同位置时模型的生成思路可能是不一样。

虽然是同一个模型去生成,可能生成差不多的东西,但不能保证独立生成时想的是一模一样的。这就是早期使用NAG生成图片时,图片质量很差的原因。

这个问题被称为multi-modality problem

问题:虽然NAG存在multi-modality problem问题,但是不得不用其生成图片和语音。所以需要通过其他办法,解决这个问题。

解决办法1:确定好需要脑补的东西,让所有位置都脑补一样的东西。将其作为prompt输入。

解决办法2:AR + NAR,先用Autoregressive生成一个精简版本(定大框架),再根据精简版本用NAR生成精细版本

### 李宏毅生成式AI导论课程资料概述 #### 课程简介 李宏毅教授的《生成式AI导论》是一门深入浅出介绍生成式人工智能理论和技术的课程。该课程不仅涵盖了生成式AI的基础概念和发展历程,还探讨了当前最前沿的研究成果及其实际应用场景[^1]。 #### 主要内容概览 - **第0:课程说明** - 对整个系列座的内容框架进行了详细介绍。 - **第1生成式AI是什么?** - 解释了生成式AI的核心定义以及其与其他类型的人工智能的区别所在。 - **第二:今日的生成式人工智慧厲害在哪裡?從「工具」變為「工具人」** - 探讨现代生成式AI的强大之处,并分析这些进步如何使机器不仅仅作为辅助工具存在,而是能够承担更多自主任务的角色转变过程。 - **第三:训练不了人工智能?你可以训练你自己(上)** - 讨论个人技能提升的重要性,特别是在面对复杂多变的技术环境时自我调整和适应的方法论建议。 #### 结构化学习与生成式学习的关系 在过去,“结构化学习”指的是让计算机学会处理具有特定格式的数据;而如今所说的“生成式学习”,则是指通过大量无标注数据来构建可以创造新样本或模拟真实世界现象的概率分布模型。尽管两者名称不同,但在某些方面确实存在着一定的联系——它们都涉及到模式识别、特征提取等关键技术环节。然而值得注意的是,在具体实现方式和技术细节层面二者之间差异巨大,尤其是在近十年间随着深度学习算法的发展,后者取得了前所未有的突破性进展[^2]。 #### 获取资源途径 为了方便国内学生获取最新版本的教学材料,《李宏毅2024生成式人工智能导论》提供了中文镜像版指导文档及配套练习题库,所有相关内容均已托管至GitHub平台供免费下载使用。这一举措得到了原作者正式授权许可,体现了教育工作者对于知识传播开放共享精神的支持态度[^3]。 ```bash git clone https://github.com/user/repo.git cd repo ``` 上述命令可以帮助用户轻松克隆仓库并浏览其中包含的各种教学素材。
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值