虽然扩散模型在图像和音频等数据应用领域中取得了巨大的成功,但他们不一定能无缝地转移到其他模态上。在许多重要的领域,数据有特殊的结构。为了让扩散模型有效运作,必须考虑并处理这些特殊结构。比如,经典扩散模型所依赖的分数的函数仅在连续装据域才有定义,而对于离散型数据没有定义,或者数据位于低维流形式上时,就会出现问题。为了应对这些挑战,扩散模型必须以各种方式进行调整。
5.1 离散数据
大多数扩散模型都是针对连续数据域的,因为DDPM中使用的高斯噪动连续性数据,并不适合作为噪声加入离散数据;而SGM和ScoreSDE所要求的分函数也只在连续数据域中定义。分数函数的定义是数据概率密度函数的对数的导数,而离散数据则无法定义分数函数,因为离散数据没有概率密度函数。为了克服这一困难,一些人设计了可以生成离散数据的扩散模型。VQ-Difusion先用VQ-VAE将image 的特征空间离散化成 token,后将前向过程中加入的高斯噪声替换为在离散数据空间上的随机游走,或一个随机蔽(mask)操作。每个image 的 token 有+
的概率保持之前的值,有K
的概率从K个类别中进行重采样。利用前向转移核的马尔可夫性可以类似地解析计算出q(xt-1|x0,
5.将扩散模型应用于具有特殊结构的数据
最新推荐文章于 2025-01-08 11:19:58 发布