Meta 的 Emu Edit 和 Emu Video 首次亮相

最新推荐文章于 2025-12-19 11:34:05 发布

原创最新推荐文章于 2025-12-19 11:34:05 发布 · 239 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#bard #AI作画 #文心一言 #DALL·E 2 #stable diffusion

Meta 近期发布了两项令人惊叹的媒体合成技术进展，包括文本转图像和文本转视频。这两项研究都基于 Meta 两个月前发布的文本转图像模型 EMew，该模型在图像生成质量方面表现出色，Meta 声称它在 70% 的情况下优于 SDXL 模型。

EMew Edit 是一个专注于指令编辑的文本转图像模型，它能够精确地遵循编辑指令，同时确保图像中与指令无关的部分不受影响。EMew Edit 的强大功能使其能够进行少样本图像遮罩或生成超分辨率图像，类似于 Controna 的 Tallying。EMew Edit 在训练过程中使用了大量不同类型的数据，这解释了它为什么能够如此干净地完成各种任务，例如分割、Mantic 映射甚至手部检测。

EMew 视频模型能够生成高质量的视频，视频中的纹理一致、主体背景分离清晰，并且视频质量明显高于其他同分辨率的 AI 视频生成器。尽管 EMew 视频目前仅限于 4 秒和 16 FPS，但延长视频长度并非难事。该模型基于扩散模型，首先生成初始图像，然后根据提示和初始图像生成视频的其余帧。

与其他文本转视频模型相比，EMew 视频在质量和真实性方面表现出色，远远领先于其他模型。唯一接近 EMew 视频性能的模型是 Imogen 的视频模型。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

bycloudAI

关注关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

Meta最新视频生成工具：emu video技术报告解读

沉迷单车的追风少年

11-26

1664

去年Meta推出了make-a-video，过去了一年多仍然是视频生成领域的SOTA。最近Meta又推出了更强的视频生成模型EMU Video，刷新了多项指标。这篇博客解读一下背后的论文《EMU VIDEO: Factorizing Text-to-Video Generation by Explicit Image Conditioning》

OPPO发布AndesGPT大模型；Emu Video和Emu Edit的新突破

haleycat的博客

11-17

1208

微软在Ignite大会中推出了名为“Azure AI Speech text to speech (TTS) avatar”的AI工具，可以生成逼真虚拟化身（数字人）。用户可以利用该工具建立基于文字输入的虚拟化身，并结合真实人物照片训练，制作互动式聊天机器人，用于企业的营销、业务或客户服务等场景。该工具包含三个模块：文字分析器、TTS声音合成器和TTS虚拟化身合成器。与传统虚拟化身制作相比，使用该工具可以节省时间和成本，制作各种产品介绍、互动视频等。

参与评论您还未登录，请先登录后发表或查看评论

Emu Video

whaosoft143ai的博客

11-17

436

在方法层面，Meta 训练的模型可以执行十六个不同的图像编辑任务，这些任务涵盖基于区域的编辑任务、自由格式编辑任务和计算机视觉任务，所有这些任务都被表述为生成任务，Meta 还为每个任务开发了一个独特的数据管理 pipeline。从中可以看出，Meta 的技术既支持灵活的图像编辑（例如把「兔子」变成「吹小号的兔子」，再变成「吹彩虹色小号的兔子」），也支持根据文本和图像生成高分辨率视频（例如让「吹小号的兔子」欢快地跳舞）。但刚刚，Meta 宣布，他们的视频生成效果超过了这两家，而且编辑起来还更加灵活。

diffusion model (九) EmuEdit技术小结

weixin_40779727的博客

11-27

1321

作者将image-edit分为了三大类，分别是Region-based Editing、Free-From Editing、Vision tasks，每个大类中有若干小类。下图展示了每一个image-edit任务所做的事。

Sora之前的视频生成发展史：从Gen2、Emu Video到PixelDance、SVD、Pika 1.0

热门推荐

结构之法算法之道

11-27

1万+

第一种是基础模式（Basic Mode），用户只需要提供一张指导图片+文本描述，PixelDance 就可以生成有高度一致性且有丰富动态性的视频，其中指导图片可以是真实图片，也可以利用现有的文生图模型生成。而达到这样拔群的视频生成效果，并没有依赖复杂的数据集和大规模的模型训练，PixelDance 在公开的 WebVid-10M 数据集上仅用 1.5B 大小的模型就达到了上述效果。)，引发了开源社区的大量关注和讨论。迈出了关键性的一步，其生成结果的动态性显著优于目前现有的其它模型，引起了业界的关注。

无需标注数据：引领视频编辑模型达到新高度

人工智能讲师分享前沿技术

08-26

2087

人工智能咨询培训老师叶梓转载标明出处由于标注视频编辑数据的稀缺，开发精确且多样化的视频编辑模型一直是个挑战。目前研究者们大多聚焦于无需训练的方法，但这些方法在性能和编辑能力范围上都有所限制。为此Meta AI的研究团队提出了一种新的方法，无需任何标注的视频编辑数据，就能训练出达到最新技术水平的视频编辑模型。图1为EVE模型进行各种编辑任务的样例，如在墙上涂鸦、给马盖上粉红色毯子、将眼睛颜色变为蓝色、移除吉他等。

CVPR 2024 图像生成方向总汇（视频合成/生成、纹理生成/合成、二维码生成、文本-矢量、手写数学表达式和文本-3D等）

qq_36812406的博客

01-21

1327

纹理生成/合成、二维码生成、文本-矢量、手写数学表达式和文本-3D等

【连载】Android组件——Activity组件

weixin_52777510的博客

06-07

2031

Android组件（一）——Activity组件控制Activity生命周期的函数： Activity周期的demo实现运行工程无法正常显示控制台打印信息如下： Capturing and displaying logcat messages from application. This behavior can be disabled in the "Logcat output" section of the "Debugger" settings page. I/studio.deploy:

浅析扩散模型与图像生成【应用篇】(十九)——Emu Edit

深视

04-30

926

该文提出一种精细的由文本指令驱动的图像编辑技术，与InstructPix2Pix类似，给定一段文字修改指令就能对图像进行准确精细的修改。

AIGC视频生成明星——Emu Video模型

haopinglianlian的博客

01-19

1747

本文详细介绍Meta的视频生成模型EmuVideo，作为Meta发布的第二款视频生成模型，在视频生成领域发挥关键作用。

VideoDemo：Android音视频开发的利器

gitblog_00391的博客

09-14

520

VideoDemo：Android音视频开发的利器项目介绍 VideoDemo 是一个专注于Android音视频开发的示例项目，旨在帮助开发者快速掌握音视频处理的核心技术。项目涵盖了从基础的音频录制、视频预览到高级的音视频编解码、合成等各个环节，是学习Android音视频开发的绝佳资源。项目技术分析 1. 音频处理 AudioRecord：用于录制PCM格式的音频数据，适合需要对音频进行深度...

阿里推出Qwen-Image-i2L开源工具：AI绘画的个性化革命来了

攻城狮7号的博客

12-12

1456

曾几何时，为AI绘画模型定制一个专属风格（LoRA），是一项需要几十张图片、专业硬件和数小时等待的“炼丹”工程，门槛高得让普通人望而却步。阿里通义实验室开源的Qwen-Image-i2L，则彻底将这一过程的复杂度从“炼丹”压缩到了“泡一杯茶”的时间。它通过革命性的“单图生LoRA”技术，将风格定制的权力下放给了每一位创作者。本文将深入剖析其背后的“风格拆解术”，探讨这一工具如何将AI个性化创作的门槛降至冰点，以及这场由效率驱动的革命，将为设计师、营销人员和艺术家们带来怎样的全新可能。

Stable Diffusion Web UI 整合包一键安装教程：Windows/Mac零基础部署AI绘画工具

ai_xiaogui的博客

12-14

325

《StableDiffusionWebUI一键整合包发布》摘要：专为AI绘图初学者设计的StableDiffusionWebUI整合包正式推出，支持Windows/macOS平台一键部署。该整合包包含核心程序、WebUI界面及SDXL等预装模型，无需配置Python/Git环境。具备12GB显存即可流畅运行，内置ComfyUI节点流程和SteadyDancer等插件，支持图像动画生成。实测在RTX30系列显卡上可快速生成高质量图像，10-20秒动画处理无卡顿。用户可通过AIStarter平台免费下载5-10

2598.从效率瓶颈到批量创作：文心一言多线程写作辅助工具的开发与实践

12-10

839

文心一言批量写作，多线程写作工具，账号批量管理，自动写作辅助，主题批量导入，批量创作工具，内容生产助手，写作效率工具，多账号写作软件，文心一言辅助工具，批量内容生成，写作自动化工具，多线程创作软件，主题管理工具，批量写作系统

跟李沐学AI：DALL·E 2 论文精读

Landy_Jay的博客

03-27

1145

如CLIP等基于对比学习的模型，已经学会了如何捕捉一个稳健的、包含语意和风格的图像特征。为了将这种特征利用与图像生成任务，作者团队提出了一个两阶段的模型：1. 一个Prior模型根据给定的文本描述，生成CLIP图像Embedding；2. 一个根据图像Embedding生成图片的Decoder。文本 -> CLIP生成文本特征 -> 根据文本特征生成图像特征(Prior) -> 解码器根据图像特征生成图像作者团队发现。显式地加入文本特征可以在最小损害图像真实性和文本相似性的情况下，提升图像的多样性。

Stable Diffusion 3.5 FP8：高效文生图技术革命