Meta 近期发布了两项令人惊叹的媒体合成技术进展,包括文本转图像和文本转视频。这两项研究都基于 Meta 两个月前发布的文本转图像模型 EMew,该模型在图像生成质量方面表现出色,Meta 声称它在 70% 的情况下优于 SDXL 模型。
EMew Edit 是一个专注于指令编辑的文本转图像模型,它能够精确地遵循编辑指令,同时确保图像中与指令无关的部分不受影响。EMew Edit 的强大功能使其能够进行少样本图像遮罩或生成超分辨率图像,类似于 Controna 的 Tallying。EMew Edit 在训练过程中使用了大量不同类型的数据,这解释了它为什么能够如此干净地完成各种任务,例如分割、Mantic 映射甚至手部检测。
EMew 视频模型能够生成高质量的视频,视频中的纹理一致、主体背景分离清晰,并且视频质量明显高于其他同分辨率的 AI 视频生成器。尽管 EMew 视频目前仅限于 4 秒和 16 FPS,但延长视频长度并非难事。该模型基于扩散模型,首先生成初始图像,然后根据提示和初始图像生成视频的其余帧。
与其他文本转视频模型相比,EMew 视频在质量和真实性方面表现出色,远远领先于其他模型。唯一接近 EMew 视频性能的模型是 Imogen 的视频模型。
1664

被折叠的 条评论
为什么被折叠?



