PIXART-α: FAST TRAINING OF DIFFUSION TRANS- FORMER FOR PHOTOREALISTIC TEXT-TO-IMAGE SYNTHESIS

最新推荐文章于 2025-06-04 23:56:57 发布

尔呦

最新推荐文章于 2025-06-04 23:56:57 发布

阅读量551

点赞数 19

分类专栏： video generation 文章标签：深度学习

版权

23 篇文章

订阅专栏

在这里插入图片描述

强调的点主要包含3个，最后落足到降低训练代价；
分解为三部分的训练策略：第一阶段使用DIT原始在imagent上面训练的class cond的模型进行初始化；第二阶段目标是从class cond模型迁移到text cond，所以专门构建了数据；第三阶段在高质量高分辨率美学分数高的数据上进行训练；
高效的T2I transformer：在原始dit block中的self attn和ffn之间增加了cross attn层用来增加text cond，并且该层的输出projection layer进行0初始化；原始adaLN层每层都会得到自己的 $S^{(i)} = [\beta_1^{(i)},\beta_2^{(i)}, \gamma_1^{(i)},\gamma_2^{(i)},\alpha_1{(i)},\alpha_2^{(i)}]$ ，本文认为不使用class cond了，所以只在第一个block求 $\overline{S}$ ，之后再进行N个block共享(还进行了block级别的映射g function)， $S^{(i)} = g(\overline{S},E^{(i)})$ ，其中 $E^{(i)}$ 是layer-specific trainable embedding；最后还进行了重参数化，以初始化 $E^{(i)}$ 使得 $S^{(i)}$ 和DIT原本一样；
高质量数据；