Stability AI开源上新,单图生成无死角3D视频、模型权重开放!

StabilityAI发布了3D视频生成模型SV3D,基于单/多视角3D生成技术,质量优于StableZero123和Zero123-XL。SV3D提供商业和非商用版本,可用于生成高质量3D网格,实验结果显示在多视图合成方面达到SOTA水平,预示着AIGC技术的未来发展潜力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大家好,我是程序员晓晓

最近Stability AI又又又上新了~

Stability AI 在推出文生图 Stable Diffusion、文生视频 Stable Video Diffusion 之后,近日,在社区为大家带来了 3D 视频生成大模型——Stable Video 3D(以下简称SV3D)

论文地址: https://stability.ai/s/SV3D_report.pdf

介绍地址: https://stability.ai/news/introducing-stable-video-3d

Hugging Face地址: https://huggingface.co/stabilityai/sv3d

SV3D基于 Stable Video Diffusion 打造,能够显著提升 3D 生成的质量和多视角一致性,效果要优于之前 Stability AI 推出的 Stable Zero123 以及丰田研究院和哥伦比亚大学联合开源的 Zero123-XL。

目前Stable Video 3D 既支持商用,也支持非商用。商用需要加入 Stability AI 会员,而非商用用户可在 Hugging Face 上下载模型权重即可(链接见上面地址)。

SV3D可只用一张图片就能生成高质量3D网格。

Stability AI本次推出了SV3D两个版本SV3D_u与SV3D_p:

SV3D_u版本基于单张图像生成轨道视频。

SV3D_p版本,扩展了SV3D_u的功能,可以根据指定的相机路径创建3D模型视频。

该模型与之前发布的稳定版 Zero123相比,质量和多视图显着提高,并且性能优于Zero123-XL等其他开源替代品。

为此,Stability AI 设计了掩码分数蒸馏采样损失,进一步增强了预测视图中未见过区域的 3D 质量。同时为了减轻烘焙照明问题,SV3D采用了与 3D 形状和纹理共同优化的解耦照明模型。

使用SV3D 模型及其输出时,通过 3D 优化改进后的 3D 网格生成示例如下图:

使用SV3D生成的 3D 网格结果与 EscherNet、Stable Zero123 的生成结果比较如下图:

SV3D架构细节:

它基于 Stable Video Diffusion 架构构建而成,包含一个具有多个层的 UNet,其中每一层又包含一个带有 Conv3D 层的残差块序列,以及两个带有注意力层(空间和时间)的 transformer 块。

此外,Stability AI 设计了静态轨道和动态轨道来研究相机姿势调整的影响,如下图所示。

在静态轨道上,相机采用与条件图像相同的仰角,以等距方位角围绕对象旋转。这样做的缺点是基于调整的仰角,可能无法获得关于对象顶部或底部的任何信息。而在动态轨道上,方位角可以不等距,每个视图的仰角也可以不同。

为了构建动态轨道,Stability AI 对静态轨道采样,向方位角添加小的随机噪声,并向其仰角添加不同频率的正弦曲线的随机加权组合。这样做提供了时间平滑性,并确保相机轨迹沿着与条件图像相同的方位角和仰角循环结束。

实验结果

Stability AI 在未见过的 GSO 和 OmniObject3D 数据集上,评估了静态和动态轨道上的SV3D合成多视图效果。结果如下。

SV3D 与其他模型在静态轨道的结果,表明了即使是无姿势调整的模型 SV3D_u,也比所有先前的方法表现得更好。

消融分析结果表明,SV3D_c 和 SV3D_p 在静态轨道的生成方面优于 SV3D_u,尽管后者专门在静态轨道上进行了训练。

下表分别展示了动态轨道的生成结果,包括姿势调整模型 SV3D_c 和 SV3D_p,后者在所有指标上实现了 SOTA。

下图中的视觉比较结果进一步表明,与以往工作相比,SV3D 生成的图像细节更强、更忠实于条件图像、多视角更加一致。

好了今天的分享就到这里了~

写在最后

感兴趣的小伙伴,赠送全套AIGC学习资料,包含AI绘画、AI人工智能等前沿科技教程和软件工具,具体看这里。

AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。

在这里插入图片描述

一、AIGC所有方向的学习路线

AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

在这里插入图片描述

在这里插入图片描述

二、AIGC必备工具

工具都帮大家整理好了,安装就可直接上手!
在这里插入图片描述

三、最新AIGC学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
在这里插入图片描述
在这里插入图片描述

四、AIGC视频教程合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

若有侵权,请联系删除
<think>好的,用户想寻找用于图片生成开源大型模型列表。我需要先回想一下相关的知识,然后结合提供的引用资料来回答。 首先,用户提到的引用[4]中提到了PaddleHub的Ernie-ViLG模型,可以用来生成图片,并且提供了示例代码。这说明Ernie-ViLG是一个开源图片生成模型。此外,虽然其他引用如[1]、[2]、[3]主要涉及代码生成和金融领域的模型,但可能需要依靠我自己的知识库来补充更多的开源图片生成模型。 接下来,我需要列出一些常见的开源图片生成模型。例如,Stable Diffusion是众所周知的,由Stability AI开发,基于Latent Diffusion Models。还有DALL·E的开源版本如DALL·E Mini(现称Craiyon),不过是否完全开源需要确认。另外,可能还有其他如MidJourney的开源替代品,但MidJourney本身不是开源的。还有像VQGAN+CLIP这类结合模型,虽然它们更多是方法而非模型。 此外,一些学术机构或公司可能发布了其他模型,比如谷歌的Imagen,但通常不会完全开源。而Stable Diffusion的变种或微调版本可能也是存在的,比如Waifu Diffusion针对动漫风格的微调。还有Disco Diffusion,虽然更多是基于代码实现的。Keras提供的示例项目可能有小规模的图像生成模型,比如基于DCGAN的,但规模可能不够大。 需要确认这些模型开源状态,例如Stable Diffusion权重是否完全开放,许可证情况如何。同时,用户可能需要具体的名称和简要说明,以及相关的资源链接,但由于引用中没有更多信息,可能需要依靠已知内容并结合引用[4]提到的Ernie-ViLG。 因此,整理后的列表可能包括: 1. Stable Diffusion系列(如Stable Diffusion 1.4/1.5、2.0、2.1,以及SDXL) 2. Ernie-ViLG(百度) 3. DALL·E Mini/Craiyon 4. VQGAN+CLIP 5. DeepFloyd IF(可能部分开源) 6. Waifu Diffusion(针对动漫) 7. Disco Diffusion 8. 其他基于扩散模型开源实现,如LDM、KerasCV的Stable Diffusion实现等 需要指出每个模型的特点、是否完全开源、适用场景等。同时,用户可能需要代码示例,引用[4]中的Ernie-ViLG示例可以作为其中一个例子。 最后,要确保回答符合格式要求,使用列表,问题部分生成相关问题,引用正确来源。确保所有数学公式用$...$,独立公式用$$...$$,但这里可能不太涉及数学,所以可能不需要。使用中文,结构清晰。</think>以下是开源图片生成模型的列表及简要说明: ### 开源图片生成模型列表 1. **Stable Diffusion系列** - 包括Stable Diffusion 1.4/1.5、2.0、2.1及SDXL - 基于潜在扩散模型(Latent Diffusion Models),支持文本到图像生成 - 完全开源,支持自定义训练和微调,适用于艺术创作、设计等场景[^4] 2. **Ernie-ViLG(文心一格)** - 百度开发的文本到图像生成模型,支持多种艺术风格(如油画、水彩、卡通等) - 通过PaddleHub提供API调用,示例代码: ```python import paddlehub as hub erniv_vilg_module = hub.Module(name='ernie_vilg') result = erniv_vilg_module.generate_image(text_prompts='风景', style='水彩画', output_dir='./output') ``` 引用自[^4] 3. **DALL·E Mini(现称Craiyon)** - 简化版开源文本到图像模型,适合快速生成低分辨率图像 - 社区驱动,可用于教育和小规模应用 4. **DeepFloyd IF** - 由Stability AI开发的多阶段扩散模型,支持高分辨率图像生成 - 部分开源,需遵守非商业使用协议 5. **Waifu Diffusion** - 基于Stable Diffusion的动漫风格微调版本 - 开源且支持自定义训练,适用于二次元内容创作 6. **VQGAN+CLIP** - 结合VQGAN图像生成与CLIP文本引导的开源方案 - 需自行配置代码,灵活性高但生成速度较慢 7. **Disco Diffusion** - 基于Jupyter Notebook的扩散模型实现,适合艺术化风格生成 - 开源代码,依赖Colab环境运行 --- ### 开源模型资源获取 - **Hugging Face Model Hub**:提供Stable Diffusion、DeepFloyd IF等模型的预训练权重和代码库 - **GitHub**:搜索`stable-diffusion`、`ernie-vilg`等关键词获取官方实现 - **PaddlePaddle生态**:通过PaddleHub直接调用Ernie-ViLG等模型 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值