- huawei
- https://github.com/PixArt-alpha/PixArt-alpha?tab=readme-ov-file
- https://arxiv.org/pdf/2310.00426#page=1.35
- 问题引入
- transformer diffusion text to image synthesis
- 强调的点主要包含3个,最后落足到降低训练代价;
- 分解为三部分的训练策略:第一阶段使用DIT原始在imagent上面训练的class cond的模型进行初始化;第二阶段目标是从class cond模型迁移到text cond,所以专门构建了数据;第三阶段在高质量高分辨率美学分数高的数据上进行训练;
- 高效的T2I transformer:在原始dit block中的self attn和ffn之间增加了cross attn层用来增加text cond,并且该层的输出projection layer进行0初始化;原始adaLN层每层都会得到自己的 S ( i ) = [ β 1 ( i ) , β 2 ( i ) , γ 1 ( i ) , γ 2 ( i ) , α 1 ( i ) , α 2 ( i ) ] S^{(i)} = [\beta_1^{(i)},\beta_2^{(i)}, \gamma_1^{(i)},\gamma_2^{(i)},\alpha_1{(i)},\alpha_2^{(i)}] S(i)=[β1(i),β2(i),γ1(i),γ2(i),α1(i),α2(i)],本文认为不使用class cond了,所以只在第一个block求 S ‾ \overline{S} S,之后再进行N个block共享(还进行了block级别的映射g function), S ( i ) = g ( S ‾ , E ( i ) ) S^{(i)} = g(\overline{S},E^{(i)}) S(i)=g(S,E(i)),其中 E ( i ) E^{(i)} E(i)是layer-specific trainable embedding;最后还进行了重参数化,以初始化 E ( i ) E^{(i)} E(i)使得 S ( i ) S^{(i)} S(i)和DIT原本一样;
- 高质量数据;