1、SVD
通常指 Stable Video Diffusion(稳定视频扩散模型),这是 Stability AI 推出的基于图像生成视频的 AI 模型。它可以将静态图像扩展为短视频(如 3-5 秒的动态片段),是 Stable Diffusion 在视频领域的扩展。
2、Turbo
通常指的是 SDXL Turbo,这是 Stability AI 推出的一种经过优化的 Stable Diffusion XL(SDXL) 模型,能够以极少的采样步骤(如 1-4 步)生成清晰的图像,显著提升生成速度。目前 SDXL Turbo 主要针对 512×512 分辨率优化,而标准 SDXL 支持更高分辨率(如 1024×1024)。
3、Stable Zero123
(或 Stable-Zero123)是由 Stability AI 推出的一个基于 Stable Diffusion 的衍生模型,主要用于 单张图像生成多视角 3D 视图。它能够根据输入的 单张物体图像,生成该物体在不同角度(如旋转、俯视、侧视等)的 合成视图,适用于 3D 建模、动画制作、电商展示 等场景。
4、LCM
(Latent Consistency Models,潜在一致性模型)是一种用于加速图像生成的采样技术,由清华大学团队研发。它通过优化潜在空间的采样过程,能够在极少的步骤(通常5-8步)内生成质量较高的图像,速度比传统方法快5-10倍(传统采样器(如DPM++)需要较多步数(如20步)才能保证质量),但画质可能略低于高步数传统采样,可通过后期高清修复或调整CFG值(如1.5)优化。适合实时交互设计、快速原型生成或需要高频调整的工作流(如建筑设计、概念草图)。与Turbo模型相比(另一种极速出图方案,但需专用大模型(如SDXL Turbo))LCM更灵活,可适配多种基础模型。
需搭配LCM专用采样器和对应的LoRA模型(如lcm-lora-sdv1-5或lcm-lora-sdxl)使用。
5、AnimateDiff
是一个基于Stable Diffusion的动画生成工具,它通过引入运动模块(Motion Models)将静态图像转化为动态视频或GIF,支持文本生成动画、图像序列控制、动作调节等功能。提供V2/V3等模型版本,V3擅长大幅动态变化,V2画面更稳定。
应用场景
快速动画:文本生成动态角色或场景(如“女孩微笑行走”)。
视频转绘:结合ControlNet实现风格化视频(如真人转动漫)。
商业制作:广告、教育视频的快速原型生成
6、IP-Adapter
(Image Prompt Adapter,图像提示适配器) 是一种由腾讯开发的轻量级适配器,用于将参考图像的特征(如风格、主体或细节)嵌入到Stable Diffusion等文生图扩散模型中,实现风格迁移、元素融合或人脸替换等效果。
核心原理
解耦交叉注意力机制:
IP-Adapter通过独立的图像交叉注意力层(与文本提示并行),将参考图像编码为嵌入向量(Embeddings),再与文本提示结合引导生成过程。相比传统“垫图”(img2img),它更灵活且能保留图像特征细节710。
轻量化设计:
仅需22M参数即可实现接近微调模型的效果,支持与ControlNet等工具协同控制生成
应用场景
风格迁移:
将参考图的整体风格(如绘画、3D渲染)迁移至新图像,适合虚拟角色设计或商业海报制作38。
元素融合:
通过多图输入或区域遮罩,将不同图像的主体(如人物、背景)合成到同一画面56。
人脸替换:
使用FaceID模型精准迁移面部特征,支持SD1.5/SDXL大模型49。
负面控制:
输入image_negative可排除不想要的元素(如特定颜色或对象)56。
1128

被折叠的 条评论
为什么被折叠?



