基于Flow
文章平均质量分 92
zzfive
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Ovi-音视频生成模型
Ovi采用对称双主干网络设计,其音频分支与视频分支并行构建,且二者均基于完全相同的DiT架构。其中,视频分支由Wan2.2 5B模型初始化,而结构完全一致的音频分支则采用从头训练。因此,两个主干网络拥有相同数量的Transformer块、注意力头、注意力头维度以及前馈网络,实现了每一层级的对称性,具体细节如表 1 所示。表1 Ovi双主干网络的Transformer超参数每个Transformer块都包含成对的交叉注意力层:音频流会对视频流进行注意力计算,而视频流也会反过来对音频流进行注意力计算。原创 2025-10-16 23:04:58 · 1110 阅读 · 0 评论 -
Flux.1系列模型解析--Kontext
Flux.1 Kontext是将图像生成和编辑任务统一的生成流匹配模型,其通过整合文本和图像输入中的语义上下文,生成全新的输出视图。Flux.1 Kontext采用简单的序列拼接,在单一的统一架构中同时处理局部编辑和生成式上下文任务;其在多轮操作中对物体和字符有较强的保留能力,相较于其他SOTA编辑模型生成速度也更快;为了验证上述改进,论文提出了KontextBench,包含1026个图像-提示词对数据,覆盖局部编辑、全局编辑、字符参考、风格参考和文本编辑五类任务。原创 2025-08-12 22:16:20 · 2001 阅读 · 0 评论 -
Flux.1系列模型解析--Flux.1 Tools
Flux.1模型的基础能力已经很强,但是局部生成、控制生成等方面仍不足,bfl随进一步训练,开发了Flux.1 Tools系列模型,包含四个模型,具体情况如下。Fill:根据文本描述和二进制掩码编辑或扩展输入图像,即Inpainting和Outpainting,是一个基模型Redux:一个能对输入图片进行细微变化或调整的Adapter模型,可以和所有Flux.1基模型组合使用Depth:可接受条件图像的深度信息控制生成图片,有基模型或lora模型。原创 2025-08-05 22:32:03 · 925 阅读 · 0 评论 -
Flux.1系列模型解析--Flux.1
Flux.1模型有三个版本,分别是pro、dev和schnell,三个模型性能依次递减,但生图效率依次提高。dev和schnell基于pro模型蒸馏而来,pro模型只能通过api访问,而dev、shcnell模型可获取具体权重,bfl并没有对Flux.1系列模型架构进行过多展示,只表明基于多模态和并行扩散 Transformer 模块的混合架构,参数扩展到了12B;通过基于流匹配范式训练,且引入旋转位置编码和并行注意力层来提高模型性能并提升硬件效率。图1 Flux.1模型架构图。原创 2025-07-31 19:32:58 · 1572 阅读 · 0 评论 -
从扩散模型开始的生成模型范式演变--FM(2)
我认为是有的,只不过是隐式的,不明显。我认为Flow matching中的前向过程并不是向扩散模型中通过定义显式的加噪分布来进行的,而是从目标分布中的数据推导出先验分布中的数据这一流动作实现的。说到这里,可能有的读者已经意识到了我想表达的内容,即从上述公式(1)推导公式(2)的过程中,我们利用了流的可逆性质,因为流可逆,所以基于公式(1),有。就是一个从标准正态分布中采样的一个随机噪声,就是先验分布中的一个数据样本,即我们在公式(2)的推导过程中其实是隐式的使用了一个从目标分布到先验分布的。原创 2024-12-14 15:10:37 · 771 阅读 · 0 评论 -
从扩散模型开始的生成模型范式演变--FM(1)
ut。原创 2024-12-08 00:11:45 · 1355 阅读 · 0 评论 -
Glow-pytorch复现github项目
Glow-pytorch复现github项目--模型训练原创 2022-10-04 22:07:38 · 2472 阅读 · 2 评论 -
Normalized Glow论文阅读
Normalized Glow论文阅读笔记原创 2022-10-04 15:10:02 · 1648 阅读 · 2 评论
分享