【学术讲座】视觉计算中的深度学习方法 & AIGC图像视频生成模型的推理加速

视觉计算中的深度学习方法

发展历程

backbone

强化学习、LLM等:有监督 && 无监督的结合

目标检测

图像分割

网络结构搜索

搜索方法

1:强化学习

2:强化学习

3:梯度算法

结构选择的作用

1:开放环境感知网络架构增长

2:大模型轻量化

图卷积神经网络GNN

图像,Image:局部拓扑结构相同(欧式度量)

图,Graph:局部拓扑结构各异(非欧式度量)

GNN任务:节点分类、图分类、链路预测、Graph预测

采样函数 ==> 把边的权重当作输入,对权重进行排序

GNN的问题:过平滑、图上池化、异配图

扩散模型

SORA:Transformer + Diffusion(视觉内容生成)

扩散模型 ==> 解决样本不足的问题

ode: ordinary differentiable equation

常用的图像生成:UNet + Diffusion

diffusion预测噪声为什么用UNET模型呢? - 知乎 (zhihu.com)

视觉表征预训练方法:图像自监督

1:对比学习

2:掩码学习

3:自回归

4:对比+掩码

视觉大模型

图像级 ==> 区域级 ==> 像素级

图像级:图像分类

区域级:目标检测和定位

像素级:语义分割和内容生成

方法论

1:单一模态 to 多模态

2:检测任务 to 多轮对话(下游任务自适应、场景对话等)

AIGC图像视频生成模型的推理加速

AIGC综述

UGC:User

PGC:platform

stable diffusion的组成

1:clip-encoder,文本编码器

2:UNet,噪声的forward和backward

3:VAE,自动编码器

扩散模型的使用形式

1:文生图

2:编辑图片

扩散模型的交叉学科应用

1:扩散模型实现数据合成 + 分类检测

2:扩散模型辅助内容设计

3:扩散模型辅助科学研究

扩散模型的加速

成本随着帧数增加,以O(n^2)复杂度增长

扩散模型的冗余性:

1:时间冗余性。同一图像位置,相邻时间步的信息高度相似。

2:空间冗余性。同一时间步上,不同像素之间的高度相似。

特征缓存技术:存储上一时间步的模型特征,直接在后续的时间步上复用

==> token重要性,少计算不重要的token

时间冗余性 ==> 基于特征缓存的扩散模型推理加速

1:激进缓存。

2:保守缓存。

空间冗余性 ==> 基于词元裁剪的扩散模型推理加速

从稀疏编码,寻找复原全图的最佳基,引入噪声带来差异性


PS:

第一部分是来自casia向世明老师的分享

第二部分是来自sjtu张林峰老师的分享

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MorleyOlsen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值