文生图 & 文生视频

本文详细探讨了文生图和视频生成中的扩散模型(如StableDiffusion和DiT),介绍了它们如何利用CLIP模型、Transformer结构以及时空信息处理技术。特别提到Latte和Sora的技术细节,以及XTuner在优化大模型训练上的贡献。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文生图

在这里插入图片描述

diffusion model

在这里插入图片描述

  • latent diffusion :先对图片降维,然后在降维空间做diffusion;stable diffusion即基于此方法实现的,因此计算量很小;
    在这里插入图片描述
  • 共用降噪网络U-Net:输入noisy image+step,告诉网络当前的噪声等级;预测出来噪声,noisy image-noise,得到降噪之后的图片;然后继续送进网络,再做一次这样的推理;

stable diffusion整体

在这里插入图片描述

stable diffusion拆解

在这里插入图片描述

  • stable diffusion的推理流程:CLIP模型对文本进行编码,得到文本-图片共享域的embedding;然后送给lattent diffusion,最后输出经过解码器重建为高清图片。

  • diffusion 正向流程是图片加白噪声,具体加的方法看schedule的设置,比如每次加一定量;或者先加的少,后加的多—图片特征损失的比较慢;高斯噪声可以累加,因此在设置step=100的时候,实际上每一步的结果都可以直接推出来了;
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  • stable diffusion的输入【step, noisy image,文本特征】,为了加强文本对生成内容的控制,引入classifier free guidance进行控制;有文本控制和没有文本控制的情况下,生成两种噪声,互减之后的部分既是文本引导改变的噪声部分,乘一定的系数对文本引导改变的结果进行加强,再加上没有文本引导部分的噪声,合并成本轮预测的噪声。

  • 进阶玩法:webUI上有正向提示词,和负向提示词;可以通过classifier free guidance进行加强or减弱的控制;

  • VAE和CLIP模型都是预先训练好的;stable diffusion 2用的是LAION数据集训练的CLIP模型;官网有模型公开,但有的模型没有训练使用的数据集公开;

文生视频

miniSoRa 开源社区

DiT

  • 知乎讲解
  • 扩散模型本来是基于UNet架构,基本包含CNN和self-attention模块;DiT将transformer结构引入diffusion,然后探索是否能够利用transformer的模型和数据的scaling law。
    在这里插入图片描述
  • DiT的设计如上图
  • 参考ViT的设计,采用一个patch embedding来将输入进行patch化,即得到一系列的tokens。【patch相当于将一张图片裁剪成多个小图,相比于直接压缩size的方法,信息损失更少】其中patch size属于一个超参数,它直接决定了tokens的数量,这会影响模型的计算量。DiT的patch size共选择了三种设置:【2,4,8】。注意token化之后,这里还要加上positional embeddings,这里采用非学习的sin-cosine位置编码。
  • 对于扩散模型来说,往往还需要在网络中嵌入额外的条件信息,包括timesteps以及类别标签(如果是文生图就是文本,但是DiT这里并没有涉及)。无论是timesteps还是类别标签,都可以采用embedding来进行编码。
  • DiT共设计了四种方案来实现两个额外embeddings的嵌入,先说结论adaLN-Zero的实验效果最好,记住就行。具体如下见讲解。虽然DiT证明,adaLN-Zero效果是最好的,但是这种方式只适合这种只有类别信息的简单条件嵌入【引申到语音领域,比如说话人信息可以用adaLN-Zero】,因为只需要引入一个class embedding;但是对于文生图来说,其条件往往是序列的text embeddings,采用cross-attention方案可能是更合适的。

latte

model arch

在这里插入图片描述

  • 视频生成涉及图片的时空信息,Latte设计了四种不同的高效Transformer变体,对时空信息进行fusion。实验发现,1【时空交错】的效果相对较优,但是在论文使用的train/val set上和2/3差别不大;4 的损失比较明显,及时gflops拉到一致;
    • 时空交错:不同的transformer block关注不同的角度,然后交替进行;
    • 先空间后时间
    • 在一个transformer block中,先空间再时间;
    • 在一个transformer block中,时空单独建模,再fusion。
  • 2+1D的方式进行视频生成

video token

在这里插入图片描述

  • 首先对图片进行压缩,然后在laten space进行token化;两种方式:(1)单帧图片时空tokenizer;(2)时间维度压缩的tokenizer。后者的视频生成质量是有损失的,因为token化的过程中信息损失比单帧时空token多,还原的时候需要更精细的设计。
  • time step class 使用adaLN的方式引入,相比于直接concat 效果更优;将time step 看成一种style;

sora

sora技术报告

XTuner

在这里插入图片描述

  • 这张图详细的解释见GPU 参数/梯度/优化器状态与对应的显存占用

  • deepspeed 的加速方式,zero1–优化器状态,zero2----优化器状态+梯度,zero3----优化器状态+梯度+参数,进行切片,使得更多的gpu 并行加速;

  • 图中展示的是混合精度计算,即一个参数占2字节(fp16),混合精度训练中,优化器参数是全精fp32,用adam的话其内部包括动量、方差和copy的模型参数,一个为4+4+4,所以图中K为12。因此显存占用主要的开销在优化器状态。

  • 对于LLM 任务,尤其是Text2Vedio 项目,序列的长度非常长,为了能够增加机器利用效率,使得更少的机器能够带动模型训练,XTuner 进行了数据并行的训练接口优化;
    在这里插入图片描述

<think>好的,用户现在想知道如何让DeepSeek直接进行文生文生视频。首先,我需要确认DeepSeek目前是否具备这些功能。根据我的知识库,DeepSeek主要专注于文本成和对话,并没有内置的像或视频成功能。这可能是因为模型架构不同,文本成模型通常不具备处理像或视频数据的能力。 接下来,用户可能对AI像和视频的方法感兴趣,我应该提供一些常见的解决方案。比如,提到Stable Diffusion、DALL-E和MidJourney这些流行的文生工具,以及Runway ML、Pika Labs和Sora这些文生视频的工具。需要说明每个工具的特点和使用方式,比如是否需要API接入或直接使用在线平台。 然后,用户可能想知道如何将DeepSeek与这些工具结合使用。这时候应该分步骤解释,比如先通过DeepSeek成提示词,再调用其他工具的API。需要给出具体的例子,比如成一个风景描述的提示词,然后用Stable Diffusion的API片,这样用户能更清楚整个流程。 还要考虑用户的技术水平,可能需要解释API是什么,以及如何获取API密钥。但可能用户只是想了解大致的方法,不需要深入技术细节。因此,保持回答简洁,但提供足够的信息让用户知道下一步该怎么做。 另外,用户可能没有明确说明他们的使用场景,比如是个人使用还是集成到某个应用中。所以需要建议不同的情况,比如如果是产品集成,需要API调用;如果是个人使用,可以直接访问在线工具。 最后,确保回答结构清晰,分点列出,帮助用户逐步解决问题。同时要提醒用户注意版权和伦理问题,使用这些工具成内容时需要遵守相关规定。总结部分要强调DeepSeek的文本成优势,并结合其他工具实现多模态成,这样用户能全面了解可能性。</think>目前,DeepSeek本身并不直接支持文生文生视频功能,但可以通过以下方法实现类似效果: 一、文生解决方案 1. 结合第三方AI绘画工具 - 使用DeepSeek成提示词(prompt) 例:输入"成一个赛博朋克风格城市的描述",获得精细的文本描述 - 将成的文本输入以下工具: • Stable Diffusion(开源,可本地部署) • DALL·E 3(OpenAI产品,需API接入) • MidJourney(需通过Discord使用) 2. API集成方案(开发级) ```python # 示例伪代码 deepseek_response = get_deepseek_prompt("一只会飞的机器猫") image_url = call_dalle_api(deepseek_response) ``` 二、文生视频解决方案 1. 分步处理法 Step 1:用DeepSeek成分镜头脚本 Step 2:使用文生工具成关键帧 Step 3:通过以下工具合成视频• Runway ML(支持文本驱动视频成) • Pika Labs(Discord平台) • 最新技术如Sora(OpenAI,暂未开放) 2. 现有工具推荐 - 文本直接视频• Kaiber.ai(支持风格化视频• Synthesia(数字人视频成) - 片转视频• Gen-2(Runway) 三、开发级集成建议 1. 架构设计: [文本输入] → [DeepSeek处理] → [多模态API调用] → [输出结果] 2. 关键技术栈: - 提示词工程(Prompt Engineering) - 多API调度管理 - 格式转换中间件(如FFmpeg) 四、注意事项 1. 需单独申请各平台的API密钥 2. 注意版权问题(如DALL·E像的商用限制) 3. 视频成需要较高算力,建议使用云服务 4. 当前技术限制:连续动作的连贯性仍存在挑战 最新进展(截至2024年7月): - DeepSeek正在研发多模态模型,未来可能原支持文生成 - 开源社区持续优化Stable Video Diffusion项目 如果您需要具体实现某个场景(如电商短视频成),可以提供更详细需求,我可给出针对性技术路线建议。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值